WFU

2022年7月6日 星期三

常見統計方法:Model selection 模型選擇

 作者:許承越

     photo credit to Unsplash, Scott Graham

醫學與公共衛生的統計部分,通常可以簡化成一個簡單的公式:


Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)


那麼我們在研究資料時,蒐集這麼多資料,我們選定一個我們有興趣的 outcome Y 之後,要如何選擇要把哪些變數當 X 呢?


或者有這麼多變數,到底要選哪些進入我們的 regression model 呢?


這邊列出幾種常見的方式:


  • 臨床上有顯著意義的變數(抽煙喝酒之於口腔癌、血中HDL與LDL等膽固醇之於冠狀動脈疾病等)
  • 之前研究上有出現過有關聯的變數
  • 在自己研究的一系列統計中,有關連的或統計上有顯著意義的變數。例如前面的 tables and figures 中有意義的部分放進來。
  • 統計方式:有不同的統計方式可以幫助我們決定要使用哪些變數 / 因子放進統計模型中。

在此簡單列出可以協助我們決定 model selection 的常見統計方法:
  • Froward selection: 給定方程式,從 p-value 最小的開始選進 model,直到你給定的 p-value 為止。
  • Backward selection: 類似 forward selection,但是是從 p-value 最大的開始從 model 剔除,直到你給定的 p-value 為止
  • Akaike Information Criterion (AIC goodness of fit):推導過程跳過,總之可以協助我們挑選要將哪些X變數放進我們的方程式裡。統計軟體都可以一次建立很多不同模型,然後再去做 AIC 比較。AIC 會在模型複雜度與預估結果的準確度中取得一個平衡;但通常會比較偏向選出較為簡潔的模型,因為研究的目的就是要去看哪些最重要的因子會與我們的結果有相關。可以一次比較多個使用不同變數組合的 regression model,通常會選擇 AIC 值最低的 regression model。請注意,AIC 只能用來比較不同的 models,並不能拿來作為驗證假說使用。
  • Likelihood ratio test:看統計模型是否支持某個複雜之regression model(變數較多)優於簡單的regression model(變數較少)
  • Residual checking:看是 linear regression model 與 X 們的誤差的多寡
  • Leverage checking :看是否有極端值對於 Y 造成過大的比重與影響
  • Variance inflation (VIF) Test:看是否有多個 X 彼此之間的關聯性太大,造成對於 Y 結果的誤差。
不過無論是何種統計方式,都必須考量到現實上的使用。若一個 model 很複雜,需要用到很多不同的因子才能預測 outcome,那麼就算他很精準,因為使用上不方便,我們可能也不會用。

Model selection 應該要在精準度與使用方便度上取得平衡,才能協助我們有效率地進行統計分析以及公共衛生或臨床上的應用。

常見統計方法:選擇變數與基礎統計方式

作者:許承越

     photo credit to Unsplash, Scott Graham

開始進行研究時,可以開始研究數據的分布狀態、以及適合使用的統計方式。以下只會簡單列出簡單的前提與適合使用方法,不會有公式的推導過程,因為只是希望可以分享讓大家可以參考適合使用什麼方式。


我習慣使用的統計軟體是 STATA,但每個人喜歡或習慣使用的軟體不同,我也沒有精通不同統計軟體,所以就沒有在這裡放上要怎麼輸入語法或指令的教學了。幾個常見的統計軟體,在其官方網站或 youtube 上,應該都已經有很多比我更專業的教學可以參考。


醫學與公共衛生的統計部分,通常可以簡化成一個簡單的公式模型(model):


Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)


Y 是我們想要得知的 outcome,也就是 Response variable。

X (X1, X2, X3, X4…) 則是我們手上可以確定的變數,也就是Explanatory variable。


關於Variables 種類,可以參考我的文章:什麼是 variable


首先,確認 variables 們是什麼型態(continuous, discrete, dichotomous, ordinal,等等)

先觀察數據分佈狀態(可以使用 Histogram、QQ-plot、Scatter plot 等工具),再來決定要用什麼型態來處理工具。



選擇變數的分析方式

理論上只要樣本數夠大,continuous variables 基本上大概都會呈現常態分佈。有些統計方式也要求前提是sample的母群體需要符合常態分佈。


若要決定樣本分佈是否屬於常態分佈,可以使用 Kolmogorov-Smirnov Test (樣本數 > 50時使用)以及 Shapiro-Wilk Test (樣本數 >= 50 時使用)。


若不符合常態分佈,可以探討原因(是否有特殊原因或自然限制使得 variable 不為常態分佈)。為了統計方便,也可以自己設定有意義的切點、或是臨床上常見有統計意義的切點,將 continuous variable 變成 dichotomous or ordinal variable,以方便統計。


例如我想研究baseline腎絲球過濾率 eGFR 對於肺炎患者住院天數的影響,則 Y = 住院天數, X = eGFR。但是 X 可以以 continuous variable (eGFR)、以 dichotomous variable (抓CKD = eGFR < 60的切點,變成有 CKD versus 沒有 CKD)、以 ordinal variable (CKD stage I到 stage V,通常都會選擇最高或最低的X來做reference比較)來做分析。


只是要記得,如果使用 ordinal variable 來處理的話,X值 多加 1 ,實際上對 Y 的影響不一定等於1。例如 CKD stage I 到 stage V,每多一個 stage,肺炎患者的住院天數不一定會呈現等差或等比增加。這就要看臨床狀況再去做調整了。



基礎統計方式的選擇

在這裡簡單列出一些常用的統計:


資料屬性

兩群

獨立樣本

三群

以上獨立樣本

相關

前後測比較

Continuous、或是有母數、符合特定分佈

Independent t-test

(兩組獨立樣本)

ANOVA

Pearson Correlation

Paired t-test

(兩組樣本非獨立)

Ordinal、或是無母數、無符合特定分佈

Wilcoxon Rank Sum Test (Mann-Whitney Test)

Kruskal-Wallis Test

Spearsman's Correlation

Wilcoxon signed-rank test

categorical

Chi-Squared Test (X²)

Fisher's exact(小樣本時使用)

Chi-Squared Test (X²)

Chi-Sqaured

Contingency Coefficient

McNemar 's Test


這邊簡單整理了一下各種常見的統計方式比較。有些統計方式不常用到,但大家可以比較簡略地記,樣本數夠大,可以假設是常態分佈。


如果要比較的話,continuous variables 就用 t-test 2組比較)或 ANOVA 比較(3組或以上比較)。Categorical variable (包含Dichotomous variable)就用Chi-squared test


Null hypothesis, p-value, type 1 & type 2 error.

 作者:許承越

     photo credit to: unsplash, Antoine Dautry


現代科學的進行過程,可以簡單分成:發現或觀察到問題→提出假說→以各種實驗方式驗證假說→分析與解釋結果→假說成立或假說不成立→得出結論。

提出假說的過程,有個很重要的概念:虛無假說(Null hypothesis)。這邊要簡單介紹什麼是虛無假說 (Null hypothesis)。



Null Hypothesis

通常單一論文一次就探討一個問題,而每個問題,通常都會有相對應的假說。在分析問題時,我們通常會以這個假設的「反面」或「否定」來做假設。顧名思義,稱為虛無假說。

例如我們假設,「喝咖啡會增加得到乳癌的機率」,則虛無假說應該是:「喝咖啡不會增加乳癌的機率」。在這個虛無假說的前提之下,我們再利用實驗結果與統計分析去驗證這個假說。

如果虛無假設成立,則我們可以說,「虛無假說無法被推翻」,進而得出結論是「喝咖啡不會增加得到乳癌的機率」。

反之若虛無假設不成立,「虛無假說被拒絕」,則或許我們可以推論「喝咖啡可能會增加得到乳癌的機率」。

同理,如果我們假設,「每天都喝一杯柳橙汁降低心肌梗塞的機率」,那麼虛無假說應該是「每天都喝一杯柳橙汁不會降低心肌梗塞的機率」,再利用實驗去推論。

或者我們如果假設,「城市空氣污染指數超標與居民高血壓的比例關係」,則我們的虛無假說就會是「城市空氣污染指數超標與居民高血壓的比例沒有關係」。

不過對於科學中尚未瞭解的領域,單一實驗的結果很難讓人直接定論因果關係,所以仍然需要進行各種不同的研究與統計,才能得出比較有說服力的結果。



P-Value

至於在統計上,最常見認定統計是否可信(也就是常看到的統計上顯著意義)的方式,就要用到大家耳熟能詳的 p-value 了。

大家可以把 p-value 理解成:虛無假說為真時,與研究使用的實際樣本出現相同極端值的機率。P-value 越小,在虛無假說下觀察到極端結果機率很小。一般有意義的切點,統計學上會抓 p-value = 0.05。

還是有點繞口?也可以用維基百科的定義去說明:「p-value 是原假設為真的時候,所得到的樣本觀察結果或更極端的結果出現的機率」。

「p值是基於數據的檢定統計量算出來的機率值。如果p值是5%,也就是說,如果以此為界拒絕原假設的話,那麼只有5%的可能性犯錯。原假設是對的,但卻拒絕了,這是錯誤的。所以說p值越大,拒絕原假設的理由越不充分。如果p值接近於0,拒絕原假設,那麼幾乎不可能犯錯,於是說明數據是極其不符合原假設。換言之,是假說檢定中虛無假說成立或表現更嚴重的可能性。p值若與選定顯著水準(0.05或0.01)相比更小,則虛無假說會被否定而不可接受。」(擷取自維基百科,連結在此。

當然,並不一定是只要 p-value 就絕對正確不可質疑。在許多自然界中觀察到的結果呈現連續常態分佈時,95%的數值會涵蓋在平均數+/-1.96個標準差(通常是大概取2個標準差)的範圍內。
所以我們習慣會說 95% 信賴區間(95% Confidence interval),也就是這個範圍有95%的機率會包含到實際正確的值。

請注意,95%信賴區間的意思並不是實際正確的值有95%的機率會落在這個範圍內;因為用這種描述方式會讓人誤以為實際正確的值是一個跳動的、變動的值。正確說法應該是這個範圍有95%的機率會包含到實際正確的值。

當然也有5%的機率,數值會落在平均數+/-1.96個標準差之外。在統計上,也有可能是樣本數不夠小,導致 p > 0.05、甚至是統計的方法不適合時,也會跑出各種與現實悖離的狀況。

但在現行的統計上,在大部分情況中大家還是可以簡單把 p-value < 0.05 視為統計上有顯著意義。現行的論文與科學研究結構基本上也以此為依據,短期之內或許很難馬上改變。

因此,邏輯可以簡單想成:

有問題→提出假說→建立相對應的虛無假說→ p-value < 0.05,則虛無假說不成立,因此我原本的假說可能是成立的。

或是

有問題→提出假說→建立相對應的虛無假說→ p-value > 0.05,則虛無假無法被推翻,因此我原本的假說可能沒辦法成立。



Type 1 Error and Type 2 Error

但萬一虛無假說為真的狀況下,得出的結論卻是虛無假說不成立、或者虛無假說不成立時,我們的結論卻是虛無假說成立的話呢?以下表格解釋了幾種可能發生的狀況:




有點複雜,但大家可以速速理解成:

Type 1 Error: 我(或任何其他生理男性),去驗孕,結果被驗出懷孕的機率:偽陽性。

Type 2 Error: 懷孕婦女去驗孕,結果被驗出沒有懷孕的機率:偽陰性。

Type 1 Error 以及 Type 2 Error都是研究中應該避免的部分,而使用有效的統計工具或實驗技術,就可以大大降低這兩者發生的機率。

而關於檢驗工具的陽性與陰性,可以參考我之前寫的文章:試驗的陽性與陰性

常見統計方法:Regression model 迴歸模型

 作者:許承越

     photo credit to Unsplash, Scott Graham

醫學與公共衛生的統計部分,通常可以簡化成一個簡單的公式模型(model):


Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)


生物統計學藉由不同的變數 / 因子 X ,來預測結果 Y。對於很多不同疾病的已知危險因子,大致上都是使用不同類似這樣的統計分析 ,反覆驗證出來的結果。


而常用的統計方式,有兩種,一種是 regression models,一種是 time-to-event analysis。這篇文章介紹 regression model。



Linear regression

Y 是一個 continuous variable。可以是身高、體重、血壓值、血糖值、或其他任何以連續狀態呈現出的數值。


跑完統計的結果,X的係數(A, B, C, D…)是 Risk difference,也就是X每多 1,Y的結果會相差多少。


在要使用 Linear regression 前,有一些前提與假設必須被滿足:1. 變數之間是獨立的、2. 變數符合特定的分佈狀況、3. Y 的結果會由不同的變數 X 組成的一個函式變化受影響、4. Y 的結果會受 X 的影響。


在進行 linear regression 前,我們可以使用 Correlation 來看 X 與 Y 之間的關聯性。Correlation 的意義是,兩個不同變數之間呈現 linear relationship 的程度。


跑完統計以後會有個 Correlation coefficient r,也會有個 p-value (一樣 p < 0.05 通常就會代表有統計上顯著意義)。 r 的值會落在 1 到 -1 之間的區間:-1 < r < 1。


1 是 100% 完全正相關,-1 是 100% 完全負相關。r 值大小的有效程度,通常會認為 r < 0.2 沒有太大意義,0.2 < r < 0.4 有弱相關,0.4 < r < 0.6 有中度程度的相關,0.6 < r 就算有一定程度的相關,不過還是要看實際使用情況跟探討內容而定。


常見的有兩種,Pearson’s correlation,以及 Spearman’s correlation。


Pearson’s correlation 評估兩者之間呈現 linear relationship的關係,也就是兩者之間的散佈圖上,有哪條直線最能代表兩者之間的關係。

Spearman’s correlation  評估兩者之間的關係,不一定要是線性的,可以是彎彎曲曲的(Monotonic relationship)

這個網站的作者有對於兩者之間圖片的比較,大家可以參考看看。



Logistic regression

Y 是一個 dichotomous variable。可以是有癌症/沒癌症、有懷孕/沒懷孕、死亡/存活、有發現/沒發現,等等。跑完統計的結果,X的係數(A, B, C, D…)是 Odds ratio(因為公式限制的關係,通常要用log以後才是 Odds ratio,不過大部分統計軟體有自動轉換的功能,所以可以記跑完的結果是 Odds ratio。)


又因為 logistic regression 實在太好用也太常見,所以後來統計學上又發展出幾個相關的統計技巧。 Logistic regression model 的 Y 是 0 or 1 的組合(有生病/沒生病、死亡/存活)等,所以如果適合的 logistic regression model 可以用來判斷陽姓與陰性。


但是會牽涉到判讀工具的 sensitivity (有病的人被正確地診斷為有病的機率)以及 specificity (沒病的人被正確地診斷為沒病的機率),而這邊可以使用的工具就是 ROC 曲線(Receiver Operating Characteristics curve)。


大家可以簡單記得,ROC curve 下面的面積(Area under the curve, AUC),也就是 C-statistic,的意義是,從樣本裡面隨機抽取一個確診的人以及一個沒有確診的人,使用這個工具來正確診斷確診者的數值高於沒有確診者的人之機率。所以如果 ROC 曲線面積越大,代表效果最好。


photo by Wikipedia, cmglee, MartinThoma - Roc-draft-xkcd-style.svg, CC BY-SA 4.0, (https://commons.wikimedia.org/w/index.php?curid=109730045)


ROC曲線 Y 軸是 sensitivity,也就是將有病者正確診斷出有病的機率。X 軸是 1-specificity ,也就是將沒病者診斷為有病的機率,也就是偽裝陽性。我們希望 sensitivity 越高,而 1-specificity 越低,因此 ROC 曲線若越靠近圖片的左上角,則越有說服力。


此外,使用 logistic regression 也可以計算出,將X1, X2, X3,... 到 Xn 帶入 logistic regression model的公式時, Y = 1 (也就是得到我們想要的結果時)的機率。計算方式的推導有點麻煩,有興趣的話可以再上網找找看。總之可以先記 probability = e^(regression model)/(1+e^(regression model) ) 就好。



Log-binomial regression

Y 是測 Risk 或 Prevalence。也就是測一個群體中的疾病發生率或盛行率。跑完統計的結果,X的係數(A, B, C, D…)是 Risk ratio 或是 Prevalence ratio。



Poisson regression

Y 是 Incidence rate,有把時間的概念涵蓋進去。跑完統計的結果,X的係數(A, B, C, D…),是 incidence rate ratio。



Ordinal and Multinomial regression model

Y 是 ordinal variable(順序變數,例如滿意度從 1, 2, 3, 4, 5)或是 multinomial variable(例如紅色、藍色、黃色,或者是居住地為台北市、台中市、台南市、高雄市等等,沒有順序大小上差別的 variable)。X的係數(A, B, C, D…)是 Odds ratio,但因為 Y 性質的關係,在解讀時要小心,因為通常是把 Y 中選擇最小或是最大的值當作 reference 來比較,一般而言在流行病學的研究中不是那麼常見。



Regression model 的使用

依據 outcome Y 的不同,每個 X 前面的係數,則在不同的 regression model 中代表著不同的意思;統計軟體通常會給一個係數的 95% 信賴區間 (Confidence Interval, CI)以及 p-value。這邊也可以簡單記 p-value 若 < 0.05 就是統計上這個係數有顯著意義;而如果統計上有顯著意義的話,95% CI 則不會涵蓋到 1 的數值(odds ratio, incidence ratio 等不等於 1 才代表有差別)。


如果是正向影響(positive effect),則係數會大於 1,但如果是負向影響(negative effect),則係數會小於 1 。唯一例外是 Linear regression 有統計上顯著意義的話代表 95% CI 不會涵蓋到 0 的數值(因為 linear regression 中 係數是代表 rick difference,若相減不為 0 才代表有意義)。


對於只需要統計簡單應用的基礎使用者,只要記得不同 regression model 中的係數代表什麼意思,以及 logistic, log-binomial, poisson 等三個 regression model 的係數都是 log 化,但統計軟體可以幫我們將之指數化成我們要的結果。


此外,如果想要研究 variable Xs 之間的交互作用,也可以納入 interactive terms,例如:

Y = A*X1 + B*X2 + C*X3 + D*X1*X2


則 D 的意義就是當 X1 和 X2 同時存在時對於Y的影響,比 X1 或 X2 單獨存在時對 Y 的影響還要多多少。


又或者有時候想要知道某個變數經過特定的譽職後或有不同的影響,例如兒童的身高生長速率進入青春期以後會迅速增加,則可以改成:

Y = A*X + B*(X-12)

但在這邊通常會定義 

If X1 > 12, 則用 X1-12帶入

If X1 <= 12, 則 X1-12 = 0


則 B 的意義就是 X 在 12 之後對 Y 的影響,比 X 在 12 之前多多少。也可以理解成當 X < 12 時,每新增 1 單位的 X,Y 受影響的幅度是 A,但是當 X > 12時,每新增 1 單位的 X,Y 受影響的幅度就是 A+B。這常見在有曲折的分佈上,或是在臨床上經過某個特別有意義的切點後,會有不同影響的變數。


常見統計方法:Survival analysis 生存分析

 作者:許承越

     photo credit to Unsplash, Scott Graham

流行病學中另外一個重要的研究方式,是Survival analysis。


顧名思義,就是研究受試者從特定/研究觀察時間開始,到 outcome 發生為止(通常是發病時間)的「存活」狀況,以及哪些因子會影響這些存活狀況與發病時間。


也因此,在統計進行時,需要所謂的 time-to-event data,也就是必須要把從特定觀察時間開始到觀察結束或是發病為止,經過了多少時間。


這種方式很常用在 prospective and continuous 的研究中,也就是當研究者招募一群受試者後,測量他們身上的各種變數與因子,或者提供不同程度的介入治療等等,並觀察這些受試者一群時間,最後去研究發病者與未發病者身上的差別。


Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)


只是這邊,Y 就變成了「到達outcome發生為止的時間」,也就是「time-to-event variable」。



Kaplan-Meier survival analysis

由 Kaplan 以及 Meier 兩位統計學者發展出來的方法,目前很常用。可以單看一個族群的存活狀況(也就是到發病為止的時間點),也可以比較不同受試組別間的存活狀況。


Kaplan-Meier 在比較不同組織間的差別可以使用 log-rank test 去比較(一樣如果 log-rank test p-value < 0.05 可以代表統計上有顯著差距)。


但如果要使用 Kaplan-Meier survival analysis,需要有幾個假設:1.  Outcome 發生率,在我們可以觀察到的病人與 lost-of-follow-up 的病人,是相同的(例如,失智症患者用藥對於延緩失智症的幫助,有可能會繼續 follow up 的患者本身失智症的狀況就不是很嚴重才有辦法繼續回診求診,有可能造成誤差,要謹慎處理)、2. 無論在什麼時候被研究者開始觀察的病人,outcome 發生率是相同的(也就是無論什麼時候 outcome 發生率都是相同的)、3. 不同受試者繼續被觀察與研究的機率是相同的(可以想成要是不同受試者 lost-of-follow-up的機率相同)、4. Outcome 發生機率在觀察期中沒有劇烈的變化。

圖為我自己之前練習做的 Kaplan-meier curve。在每個曲線往下的點,就代表有受試者發生了 outcome。統計軟體通常也可以在下面的空間呈現出在每個往下的點,有多少 outcome 發生,以及剩下多少還在 follow up 的試驗者;不過很多期刊通常為求畫面簡潔,這部分就不會放,以文字敘述即可。



Cox-regression models

主要是去看到特定時間點前,不同變數因子對於受試者在單位時間內發病(也就是抵達 outcome)的機率做比較,可以理解成不同變數與因子對於 incidence 的影響。

跑完統計的結果。


X的係數(A, B, C, D…)的意義是 Hazard ratio(HR),為增加 hazard ,也就是單位時間內 outcome 發生的機率


可以理解成不同變數與因子對於 incidence 的影響。而 Cox regression model 又被稱為 Cox proportional hazard regression model,就是假定研究的變數與因子(也就是 X 們),對於 time-to-event / incidence rate 的影響,在受試與觀察的過程中,都是成固定比例的。(Hazard function is proportional over the observation time)



Grouped data, life-table analysis, and log-linear Poisson regression

跟 Kalpan-Meier 或是 Cox 最大的不同就是,Life-table analysis 使用的是 grouped data。Grouped data 的意思是說,我們將 time-to-event 切成一段一段的 discrete time interval(or time bin)然後再利用 Life-Table estimates or log-linear Poisson regression 去分析。原始Data 可以是 continuous,但是我們可以把它變成grouped data。


Kaplan-Meier 分析跟統計的是 outcome 發生的確切時間點;相對的,Life-table analysis 分析時並不需要去知道 outcome 發生的確切時間點。只要知道被切成一段一段的不同時間段中, outcome 發生的比例就可以進行統計分析。


Poisson regression 的 Y 會是 incidence rate,所以 X 的係數就代表 incidence rate 的差異,但因為數學公式的關係,在取 log 後就會變成 incidence rate ratio,也就是 X 每增加或減少多少,incidence rate 會有幾倍(或幾分之幾)的影響。


Bias, confounder, and effect modifier

作者:許承越

     photo credit to: unsplash, Ruthson Zimmerman

進行統計分析時常有幾個變數會對統計結果有很大的影響,分別是
  • Bias 偏差
  • Confounders 干擾因子
  • Effect modifiers 效果修飾


Bias 偏差


Bias 最容易理解,可以翻為偏差,又可以簡單分成
  • Information bias
  • Selective bias
  • Recall bias
  • Survival bias 

Information bias 是指觀察與收集資料時導致的誤差,造成結果測量時的不可信與缺陷。

Selective bias 是指因為研究者主觀(或不經意的)在收集試驗者的資料時,特別收進特定類型的族群,結果造成統計上的偏差。例如

Recall bias 受試者在進行資料回報與登記時,因為受試者的主觀感受,會容易不自覺地誇大或誤報自己的經歷或感受。例如之前研究流產或畸胎的研究時,有物質成癮的婦女通常會在登記之前資料時回報自己比平常用的藥物/酒精還要多的量給受試者。

Survival bias 想要研究某種疾病,卻發現能篩選到的族群都是健康的族群。例如二戰初期美軍飛機轟炸德國,結果轟炸機隊在面對防空火砲與德軍戰機時損失慘重。專家學者開始研究成功返航的轟炸機,發現轟炸機的機翼跟其他部位相比有最多受攻擊的彈孔殘留,因此決定強化機翼結構與保護,但後來才驚覺到,能成功返航的轟炸機就是因為都只有被打到機翼的部分,因為如果被打到其他部分(引擎、駕駛艙)等等,早就解體或墜機了。


Confounder 干擾因子


Confounder又被翻譯成干擾因子。在做研究時,我們希望研究特定危險因子與我們有興趣的結果之間的關聯。但是若有一些confounder 同時與特定危險因子與我們有興趣的結果之間都有關係的話,很有可能就會影響到統計的結果。

最有名的例子是咖啡跟肺癌。自20世紀中後葉開始,專家學者們開始發現肺癌的發生率與比例開始節節上升,但是還未有個定論,因此大家開始去研究到底哪些東西跟肺癌有關係。

有學者發表論文,說咖啡喝很多的人也有很高的機率會有肺癌!但後來才發現,原來是因為做研究的時空背景下(1960-1970年代的美國)會喝咖啡的人大部分也都會抽煙,所以才造成大家以為統計出來咖啡跟肺癌有關係。

在這個例子中,咖啡就是 confounder。然而在面對未知領域時,confounder到底是哪個東西其實很難馬上判定,所以只能藉由不停用各種測試方法去反覆驗證。

而當我們懷疑某個變數是 confounder 時,就應該要用不同方式去控制他,讓大家的變數都盡量相同,再繼續去做實驗/對照組的比對。

常見有幾個 Controlling for confounders 的方法,簡單介紹如下:

  • Restriction:收集 data 以及招募受試者時,全部都只招募具有某項你懷疑是 confounder 的因子的受試者(或是反過來,只招募沒有某項你懷疑是 confounder 的因子的受試者)。
    • 優點:相對容易執行。
    • 缺點:Sample size 容易因此受限、無法控制其他可能的 confounders。
  • Matching:每個實驗組的受試者,都有一個對應的對照組的受試者;這兩者的某項你懷疑是 confounder 的因子都是一樣的(同樣具有、或是同樣沒有這個因子)
    • 優點:每問受試者都有相對應的人可以比較。
    • 缺點:很難每個實驗組與對照組的受試者都完全可以配對成功。
  • Statistical control:用統計學的方式來讓 confounder 的影響降低。常見的有兩種
    • Regression model:將某項你懷疑是 confounder 的因子放進 regression model 中,這樣就可以用不同統計技巧來控制這個因子。
    • Propensity score:一般的 regression model可以寫成Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)。但假設我們認為 X1 是 major risk factor,而且 X1 是 dichotomous variable的話,那麼我們可以新設立一個 logistic regression model: X1 = B*X2 + C*X3 + D*X4… + ε (常數),並且利用 logistic regression model 的特性,去計算帶入不同X因子時,X1 的 probability ,最後依照 probability 的高低得出一個「propensity score」。Propensity score 的目的是要在其他 Xs 在被控制的狀況下,去分析 major risk factor X1 與 outcome Y 的關係。
    • 優點:方便執行、可以在搜集好資料要開始跑統計時再進行。
    • 缺點:只能處理已知的 potential confounders、無法處理未知的 potential confounders。
  • Randomization:使用電腦軟體或亂數表,將受試者隨機分配,也就是隨機將受試者分配到實驗組與對照組。讓某項你懷疑是 confounder 的因子對於研究結果的影響降到最低。
    • 優點:很有效力、如果有些無法觀察到的 confounder 也可以一併藉由隨機分配的關係將影響降低。
    • 缺點:較難執行、經費花費可能較高、必須在開始 data collection 以前就先分組好。


Effect modifiers 效果修飾


某個因子存在時,搭配上別的因子存在時,會有比兩者各自單獨存在時,對於結果有更強的效果。

可以簡單理解成同樣要煮雞湯,加入鹽會讓雞湯更好喝、加入香菇也會讓雞湯更好喝,但是「同時加入鹽及香菇的美味度」,比「只加鹽的美味度」與「只加香菇的美味度」多出很多,可以理解成 Effect Modifiers。

也可以這樣理解:比起不抽煙的人,抽菸的人得到口腔癌的機率多18倍。比起不吃檳榔的人,吃檳榔的人得到口腔癌的機率多28倍。

比起不抽煙不吃檳榔的人,如果抽菸又吃檳榔,得到口腔癌的機率高了89倍(高雄醫學大學葛應欽教授 1995 年發表於「口腔病理學及口腔內科學雜誌」),那麼我們可以考慮說檳榔在抽煙對於口腔癌的效果上,是 effect modifiers;或者兩者具有 synergistic effect 。

兩者有正向加成效果,則稱為 positive synergistic effect。若兩者有負向加成效果,則稱為 negative synergistic effect。

常見的方式是在 regression model 中放入 interactive term。(放入連結)

Bias 以及 confounders 是我們在做研究中不可避免會遇到的問題,但我們仍然要盡量用各種方法去減少 bias 以及 confounders 的影響。Effect modifiers 卻是我們在研究中希望可以發現以及好好深入探索的因子,因為我們可以對我們有興趣的結果的各種作用路徑與發生過程有更多了解。

Population

作者:許承越

     photo credit to Unsplash, Ryoji Iwata

流行病學與生物統計學的研究,在我們觀察與提出問題、建立假設、收集數據以後,就要進行統計的部分。


統計的目的,就是希望可以用我們手上的 sample,觀察到特定的狀況或結果,再進行推論到整個大群體(Target population)。


實際招募受試者的狀況可能是:Target populationSource populationSample (studied) population。

藉由訂立目標,去招募受試者、取得資料,最後用篩選過的 sample 去做分析。

而我們可以推論的方式是:Sample (studied) population  Source population  Target population

利用篩選過的 sample 統計與分析後的結果,做合理的推論,並反推到 target population 上。

Sample population 是我們有確切數據可以觀察、介入、與研究的對象。Source population 是我們選擇 Sample population 的來源,也是有合理依據可以推論 Target population的群體。Target population 則是廣義的我們想要研究的對象。

例如我們想知道2010-2020年雙北地區女性居民的子宮頸癌發生率,那麼可以這樣設定 population:
  • Target population: 2010-2020年雙北地區的女性居民
  • Source population: 2010-2020年雙北地區曾經至各醫療院所接受子宮頸抹片或其他檢查的女性居民
  • Sample population: 2010-2020年雙北地區曾經至各醫療院所接受子宮頸抹片或其他檢查的50歲以上女性居民,且願意接受我們研究團隊的進一步病史詢問與抽血檢驗以及參加研究計劃。
Population ,尤其是 sample population,一定要有很清楚的 people, place, time 等三個要素,才比較有科學上的說服力來做比較。

而無論是從 Target 到 source ,或者從 source 到 sample的篩選過程,或許都會影響我們的研究結果,在進行資料搜集時需要小心處理。

決定樣本數量是否足夠,有 test for sample sizes,不同統計軟體都可以,可以善用。