作者:許承越
photo credit to: unsplash, Antoine Dautry
現代科學的進行過程,可以簡單分成:發現或觀察到問題→提出假說→以各種實驗方式驗證假說→分析與解釋結果→假說成立或假說不成立→得出結論。
提出假說的過程,有個很重要的概念:虛無假說(Null hypothesis)。這邊要簡單介紹什麼是虛無假說 (Null hypothesis)。
Null Hypothesis
通常單一論文一次就探討一個問題,而每個問題,通常都會有相對應的假說。在分析問題時,我們通常會以這個假設的「反面」或「否定」來做假設。顧名思義,稱為虛無假說。例如我們假設,「喝咖啡會增加得到乳癌的機率」,則虛無假說應該是:「喝咖啡不會增加乳癌的機率」。在這個虛無假說的前提之下,我們再利用實驗結果與統計分析去驗證這個假說。
如果虛無假設成立,則我們可以說,「虛無假說無法被推翻」,進而得出結論是「喝咖啡不會增加得到乳癌的機率」。
反之若虛無假設不成立,「虛無假說被拒絕」,則或許我們可以推論「喝咖啡可能會增加得到乳癌的機率」。
同理,如果我們假設,「每天都喝一杯柳橙汁會降低心肌梗塞的機率」,那麼虛無假說應該是「每天都喝一杯柳橙汁不會降低心肌梗塞的機率」,再利用實驗去推論。
或者我們如果假設,「城市空氣污染指數超標與居民高血壓的比例有關係」,則我們的虛無假說就會是「城市空氣污染指數超標與居民高血壓的比例沒有關係」。
不過對於科學中尚未瞭解的領域,單一實驗的結果很難讓人直接定論因果關係,所以仍然需要進行各種不同的研究與統計,才能得出比較有說服力的結果。
P-Value
至於在統計上,最常見認定統計是否可信(也就是常看到的統計上顯著意義)的方式,就要用到大家耳熟能詳的 p-value 了。
大家可以把 p-value 理解成:虛無假說為真時,與研究使用的實際樣本出現相同極端值的機率。P-value 越小,在虛無假說下觀察到極端結果機率很小。一般有意義的切點,統計學上會抓 p-value = 0.05。
還是有點繞口?也可以用維基百科的定義去說明:「p-value 是原假設為真的時候,所得到的樣本觀察結果或更極端的結果出現的機率」。
「p值是基於數據的檢定統計量算出來的機率值。如果p值是5%,也就是說,如果以此為界拒絕原假設的話,那麼只有5%的可能性犯錯。原假設是對的,但卻拒絕了,這是錯誤的。所以說p值越大,拒絕原假設的理由越不充分。如果p值接近於0,拒絕原假設,那麼幾乎不可能犯錯,於是說明數據是極其不符合原假設。換言之,是假說檢定中虛無假說成立或表現更嚴重的可能性。p值若與選定顯著水準(0.05或0.01)相比更小,則虛無假說會被否定而不可接受。」(擷取自維基百科,連結在此。)
當然,並不一定是只要 p-value 就絕對正確不可質疑。在許多自然界中觀察到的結果呈現連續常態分佈時,95%的數值會涵蓋在平均數+/-1.96個標準差(通常是大概取2個標準差)的範圍內。
所以我們習慣會說 95% 信賴區間(95% Confidence interval),也就是這個範圍有95%的機率會包含到實際正確的值。
請注意,95%信賴區間的意思並不是實際正確的值有95%的機率會落在這個範圍內;因為用這種描述方式會讓人誤以為實際正確的值是一個跳動的、變動的值。正確說法應該是這個範圍有95%的機率會包含到實際正確的值。
當然也有5%的機率,數值會落在平均數+/-1.96個標準差之外。在統計上,也有可能是樣本數不夠小,導致 p > 0.05、甚至是統計的方法不適合時,也會跑出各種與現實悖離的狀況。
但在現行的統計上,在大部分情況中大家還是可以簡單把 p-value < 0.05 視為統計上有顯著意義。現行的論文與科學研究結構基本上也以此為依據,短期之內或許很難馬上改變。
因此,邏輯可以簡單想成:
有問題→提出假說→建立相對應的虛無假說→ p-value < 0.05,則虛無假說不成立,因此我原本的假說可能是成立的。
或是
有問題→提出假說→建立相對應的虛無假說→ p-value > 0.05,則虛無假無法被推翻,因此我原本的假說可能沒辦法成立。
Type 1 Error and Type 2 Error
但萬一虛無假說為真的狀況下,得出的結論卻是虛無假說不成立、或者虛無假說不成立時,我們的結論卻是虛無假說成立的話呢?以下表格解釋了幾種可能發生的狀況:
有點複雜,但大家可以速速理解成:
Type 1 Error: 我(或任何其他生理男性),去驗孕,結果被驗出懷孕的機率:偽陽性。
Type 2 Error: 懷孕婦女去驗孕,結果被驗出沒有懷孕的機率:偽陰性。
Type 1 Error 以及 Type 2 Error都是研究中應該避免的部分,而使用有效的統計工具或實驗技術,就可以大大降低這兩者發生的機率。
其他流行病學與生物統計學筆記:請按這裡