作者:許承越
photo credit to Unsplash, Scott Graham
開始進行研究時,可以開始研究數據的分布狀態、以及適合使用的統計方式。以下只會簡單列出簡單的前提與適合使用方法,不會有公式的推導過程,因為只是希望可以分享讓大家可以參考適合使用什麼方式。
我習慣使用的統計軟體是 STATA,但每個人喜歡或習慣使用的軟體不同,我也沒有精通不同統計軟體,所以就沒有在這裡放上要怎麼輸入語法或指令的教學了。幾個常見的統計軟體,在其官方網站或 youtube 上,應該都已經有很多比我更專業的教學可以參考。
醫學與公共衛生的統計部分,通常可以簡化成一個簡單的公式模型(model):
Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)
Y 是我們想要得知的 outcome,也就是 Response variable。
X (X1, X2, X3, X4…) 則是我們手上可以確定的變數,也就是Explanatory variable。
關於Variables 種類,可以參考我的文章:什麼是 variable。
首先,確認 variables 們是什麼型態(continuous, discrete, dichotomous, ordinal,等等)
先觀察數據分佈狀態(可以使用 Histogram、QQ-plot、Scatter plot 等工具),再來決定要用什麼型態來處理工具。
選擇變數的分析方式
理論上只要樣本數夠大,continuous variables 基本上大概都會呈現常態分佈。有些統計方式也要求前提是sample的母群體需要符合常態分佈。
若要決定樣本分佈是否屬於常態分佈,可以使用 Kolmogorov-Smirnov Test (樣本數 > 50時使用)以及 Shapiro-Wilk Test (樣本數 >= 50 時使用)。
若不符合常態分佈,可以探討原因(是否有特殊原因或自然限制使得 variable 不為常態分佈)。為了統計方便,也可以自己設定有意義的切點、或是臨床上常見有統計意義的切點,將 continuous variable 變成 dichotomous or ordinal variable,以方便統計。
例如我想研究baseline腎絲球過濾率 eGFR 對於肺炎患者住院天數的影響,則 Y = 住院天數, X = eGFR。但是 X 可以以 continuous variable (eGFR)、以 dichotomous variable (抓CKD = eGFR < 60的切點,變成有 CKD versus 沒有 CKD)、以 ordinal variable (CKD stage I到 stage V,通常都會選擇最高或最低的X來做reference比較)來做分析。
只是要記得,如果使用 ordinal variable 來處理的話,X值 多加 1 ,實際上對 Y 的影響不一定等於1。例如 CKD stage I 到 stage V,每多一個 stage,肺炎患者的住院天數不一定會呈現等差或等比增加。這就要看臨床狀況再去做調整了。
基礎統計方式的選擇
在這裡簡單列出一些常用的統計:
資料屬性 |
兩群 獨立樣本 |
三群 以上獨立樣本 |
相關 |
前後測比較 |
Continuous、或是有母數、符合特定分佈 |
Independent t-test (兩組獨立樣本) |
ANOVA |
Pearson Correlation |
Paired t-test (兩組樣本非獨立) |
Ordinal、或是無母數、無符合特定分佈 |
Wilcoxon Rank Sum Test (Mann-Whitney Test) |
Kruskal-Wallis Test |
Spearsman's Correlation |
Wilcoxon signed-rank test |
categorical |
Chi-Squared Test (X²) Fisher's exact(小樣本時使用) |
Chi-Squared Test (X²) |
Chi-Sqaured Contingency Coefficient |
McNemar 's Test |
這邊簡單整理了一下各種常見的統計方式比較。有些統計方式不常用到,但大家可以比較簡略地記,樣本數夠大,可以假設是常態分佈。
如果要比較的話,continuous variables 就用 t-test (2組比較)或 ANOVA 比較(3組或以上比較)。Categorical variable (包含Dichotomous variable)就用Chi-squared test。