WFU

2022年7月6日 星期三

常見統計方法:選擇變數與基礎統計方式

作者:許承越

     photo credit to Unsplash, Scott Graham

開始進行研究時,可以開始研究數據的分布狀態、以及適合使用的統計方式。以下只會簡單列出簡單的前提與適合使用方法,不會有公式的推導過程,因為只是希望可以分享讓大家可以參考適合使用什麼方式。


我習慣使用的統計軟體是 STATA,但每個人喜歡或習慣使用的軟體不同,我也沒有精通不同統計軟體,所以就沒有在這裡放上要怎麼輸入語法或指令的教學了。幾個常見的統計軟體,在其官方網站或 youtube 上,應該都已經有很多比我更專業的教學可以參考。


醫學與公共衛生的統計部分,通常可以簡化成一個簡單的公式模型(model):


Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)


Y 是我們想要得知的 outcome,也就是 Response variable。

X (X1, X2, X3, X4…) 則是我們手上可以確定的變數,也就是Explanatory variable。


關於Variables 種類,可以參考我的文章:什麼是 variable


首先,確認 variables 們是什麼型態(continuous, discrete, dichotomous, ordinal,等等)

先觀察數據分佈狀態(可以使用 Histogram、QQ-plot、Scatter plot 等工具),再來決定要用什麼型態來處理工具。



選擇變數的分析方式

理論上只要樣本數夠大,continuous variables 基本上大概都會呈現常態分佈。有些統計方式也要求前提是sample的母群體需要符合常態分佈。


若要決定樣本分佈是否屬於常態分佈,可以使用 Kolmogorov-Smirnov Test (樣本數 > 50時使用)以及 Shapiro-Wilk Test (樣本數 >= 50 時使用)。


若不符合常態分佈,可以探討原因(是否有特殊原因或自然限制使得 variable 不為常態分佈)。為了統計方便,也可以自己設定有意義的切點、或是臨床上常見有統計意義的切點,將 continuous variable 變成 dichotomous or ordinal variable,以方便統計。


例如我想研究baseline腎絲球過濾率 eGFR 對於肺炎患者住院天數的影響,則 Y = 住院天數, X = eGFR。但是 X 可以以 continuous variable (eGFR)、以 dichotomous variable (抓CKD = eGFR < 60的切點,變成有 CKD versus 沒有 CKD)、以 ordinal variable (CKD stage I到 stage V,通常都會選擇最高或最低的X來做reference比較)來做分析。


只是要記得,如果使用 ordinal variable 來處理的話,X值 多加 1 ,實際上對 Y 的影響不一定等於1。例如 CKD stage I 到 stage V,每多一個 stage,肺炎患者的住院天數不一定會呈現等差或等比增加。這就要看臨床狀況再去做調整了。



基礎統計方式的選擇

在這裡簡單列出一些常用的統計:


資料屬性

兩群

獨立樣本

三群

以上獨立樣本

相關

前後測比較

Continuous、或是有母數、符合特定分佈

Independent t-test

(兩組獨立樣本)

ANOVA

Pearson Correlation

Paired t-test

(兩組樣本非獨立)

Ordinal、或是無母數、無符合特定分佈

Wilcoxon Rank Sum Test (Mann-Whitney Test)

Kruskal-Wallis Test

Spearsman's Correlation

Wilcoxon signed-rank test

categorical

Chi-Squared Test (X²)

Fisher's exact(小樣本時使用)

Chi-Squared Test (X²)

Chi-Sqaured

Contingency Coefficient

McNemar 's Test


這邊簡單整理了一下各種常見的統計方式比較。有些統計方式不常用到,但大家可以比較簡略地記,樣本數夠大,可以假設是常態分佈。


如果要比較的話,continuous variables 就用 t-test 2組比較)或 ANOVA 比較(3組或以上比較)。Categorical variable (包含Dichotomous variable)就用Chi-squared test


其他流行病學與生物統計學筆記:請按這裡