Null hypothesis, p-value, type 1 & type 2 error.

作者：許承越

photo credit to: unsplash, Antoine Dautry

現代科學的進行過程，可以簡單分成：發現或觀察到問題→提出假說→以各種實驗方式驗證假說→分析與解釋結果→假說成立或假說不成立→得出結論。

提出假說的過程，有個很重要的概念：虛無假說（Null hypothesis）。這邊要簡單介紹什麼是虛無假說 (Null hypothesis)。

Null Hypothesis

通常單一論文一次就探討一個問題，而每個問題，通常都會有相對應的假說。在分析問題時，我們通常會以這個假設的「反面」或「否定」來做假設。顧名思義，稱為虛無假說。

例如我們假設，「喝咖啡會增加得到乳癌的機率」，則虛無假說應該是：「喝咖啡不會增加乳癌的機率」。在這個虛無假說的前提之下，我們再利用實驗結果與統計分析去驗證這個假說。

如果虛無假設成立，則我們可以說，「虛無假說無法被推翻」，進而得出結論是「喝咖啡不會增加得到乳癌的機率」。

反之若虛無假設不成立，「虛無假說被拒絕」，則或許我們可以推論「喝咖啡可能會增加得到乳癌的機率」。

同理，如果我們假設，「每天都喝一杯柳橙汁會降低心肌梗塞的機率」，那麼虛無假說應該是「每天都喝一杯柳橙汁不會降低心肌梗塞的機率」，再利用實驗去推論。

或者我們如果假設，「城市空氣污染指數超標與居民高血壓的比例有關係」，則我們的虛無假說就會是「城市空氣污染指數超標與居民高血壓的比例沒有關係」。

不過對於科學中尚未瞭解的領域，單一實驗的結果很難讓人直接定論因果關係，所以仍然需要進行各種不同的研究與統計，才能得出比較有說服力的結果。

P-Value

至於在統計上，最常見認定統計是否可信（也就是常看到的統計上顯著意義）的方式，就要用到大家耳熟能詳的 p-value 了。

大家可以把 p-value 理解成：虛無假說為真時，與研究使用的實際樣本出現相同極端值的機率。P-value 越小，在虛無假說下觀察到極端結果機率很小。一般有意義的切點，統計學上會抓 p-value = 0.05。

還是有點繞口？也可以用維基百科的定義去說明：「p-value 是原假設為真的時候，所得到的樣本觀察結果或更極端的結果出現的機率」。

「p值是基於數據的檢定統計量算出來的機率值。如果p值是5%，也就是說，如果以此為界拒絕原假設的話，那麼只有5%的可能性犯錯。原假設是對的，但卻拒絕了，這是錯誤的。所以說p值越大，拒絕原假設的理由越不充分。如果p值接近於0，拒絕原假設，那麼幾乎不可能犯錯，於是說明數據是極其不符合原假設。換言之，是假說檢定中虛無假說成立或表現更嚴重的可能性。p值若與選定顯著水準（0.05或0.01）相比更小，則虛無假說會被否定而不可接受。」（擷取自維基百科，連結在此。）

當然，並不一定是只要 p-value 就絕對正確不可質疑。在許多自然界中觀察到的結果呈現連續常態分佈時，95%的數值會涵蓋在平均數+/-1.96個標準差（通常是大概取2個標準差）的範圍內。
所以我們習慣會說 95% 信賴區間（95% Confidence interval），也就是這個範圍有95%的機率會包含到實際正確的值。

請注意，95%信賴區間的意思並不是實際正確的值有95%的機率會落在這個範圍內；因為用這種描述方式會讓人誤以為實際正確的值是一個跳動的、變動的值。正確說法應該是這個範圍有95%的機率會包含到實際正確的值。

當然也有5%的機率，數值會落在平均數+/-1.96個標準差之外。在統計上，也有可能是樣本數不夠小，導致 p > 0.05、甚至是統計的方法不適合時，也會跑出各種與現實悖離的狀況。

但在現行的統計上，在大部分情況中大家還是可以簡單把 p-value < 0.05 視為統計上有顯著意義。現行的論文與科學研究結構基本上也以此為依據，短期之內或許很難馬上改變。

因此，邏輯可以簡單想成：

有問題→提出假說→建立相對應的虛無假說→ p-value < 0.05，則虛無假說不成立，因此我原本的假說可能是成立的。

或是

有問題→提出假說→建立相對應的虛無假說→ p-value > 0.05，則虛無假無法被推翻，因此我原本的假說可能沒辦法成立。

Type 1 Error and Type 2 Error

但萬一虛無假說為真的狀況下，得出的結論卻是虛無假說不成立、或者虛無假說不成立時，我們的結論卻是虛無假說成立的話呢？以下表格解釋了幾種可能發生的狀況：

有點複雜，但大家可以速速理解成：

Type 1 Error: 我（或任何其他生理男性），去驗孕，結果被驗出懷孕的機率：偽陽性。

Type 2 Error: 懷孕婦女去驗孕，結果被驗出沒有懷孕的機率：偽陰性。

Type 1 Error 以及 Type 2 Error都是研究中應該避免的部分，而使用有效的統計工具或實驗技術，就可以大大降低這兩者發生的機率。

而關於檢驗工具的陽性與陰性，可以參考我之前寫的文章：試驗的陽性與陰性。

其他流行病學與生物統計學筆記：請按這裡

2022年7月6日星期三