作者:許承越
photo credit to Unsplash, Scott Graham
醫學與公共衛生的統計部分,通常可以簡化成一個簡單的公式:
Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)
那麼我們在研究資料時,蒐集這麼多資料,我們選定一個我們有興趣的 outcome Y 之後,要如何選擇要把哪些變數當 X 呢?
或者有這麼多變數,到底要選哪些進入我們的 regression model 呢?
這邊列出幾種常見的方式:
- 臨床上有顯著意義的變數(抽煙喝酒之於口腔癌、血中HDL與LDL等膽固醇之於冠狀動脈疾病等)
- 之前研究上有出現過有關聯的變數
- 在自己研究的一系列統計中,有關連的或統計上有顯著意義的變數。例如前面的 tables and figures 中有意義的部分放進來。
- 統計方式:有不同的統計方式可以幫助我們決定要使用哪些變數 / 因子放進統計模型中。
在此簡單列出可以協助我們決定 model selection 的常見統計方法:
- Froward selection: 給定方程式,從 p-value 最小的開始選進 model,直到你給定的 p-value 為止。
- Backward selection: 類似 forward selection,但是是從 p-value 最大的開始從 model 剔除,直到你給定的 p-value 為止
- Akaike Information Criterion (AIC goodness of fit):推導過程跳過,總之可以協助我們挑選要將哪些X變數放進我們的方程式裡。統計軟體都可以一次建立很多不同模型,然後再去做 AIC 比較。AIC 會在模型複雜度與預估結果的準確度中取得一個平衡;但通常會比較偏向選出較為簡潔的模型,因為研究的目的就是要去看哪些最重要的因子會與我們的結果有相關。可以一次比較多個使用不同變數組合的 regression model,通常會選擇 AIC 值最低的 regression model。請注意,AIC 只能用來比較不同的 models,並不能拿來作為驗證假說使用。
- Likelihood ratio test:看統計模型是否支持某個複雜之regression model(變數較多)優於簡單的regression model(變數較少)
- Residual checking:看是 linear regression model 與 X 們的誤差的多寡
- Leverage checking :看是否有極端值對於 Y 造成過大的比重與影響
- Variance inflation (VIF) Test:看是否有多個 X 彼此之間的關聯性太大,造成對於 Y 結果的誤差。
不過無論是何種統計方式,都必須考量到現實上的使用。若一個 model 很複雜,需要用到很多不同的因子才能預測 outcome,那麼就算他很精準,因為使用上不方便,我們可能也不會用。
Model selection 應該要在精準度與使用方便度上取得平衡,才能協助我們有效率地進行統計分析以及公共衛生或臨床上的應用。
其他流行病學與生物統計學筆記:請按這裡