WFU

2022年7月6日 星期三

Bias, confounder, and effect modifier

作者:許承越

     photo credit to: unsplash, Ruthson Zimmerman

進行統計分析時常有幾個變數會對統計結果有很大的影響,分別是
  • Bias 偏差
  • Confounders 干擾因子
  • Effect modifiers 效果修飾


Bias 偏差


Bias 最容易理解,可以翻為偏差,又可以簡單分成
  • Information bias
  • Selective bias
  • Recall bias
  • Survival bias 

Information bias 是指觀察與收集資料時導致的誤差,造成結果測量時的不可信與缺陷。

Selective bias 是指因為研究者主觀(或不經意的)在收集試驗者的資料時,特別收進特定類型的族群,結果造成統計上的偏差。例如

Recall bias 受試者在進行資料回報與登記時,因為受試者的主觀感受,會容易不自覺地誇大或誤報自己的經歷或感受。例如之前研究流產或畸胎的研究時,有物質成癮的婦女通常會在登記之前資料時回報自己比平常用的藥物/酒精還要多的量給受試者。

Survival bias 想要研究某種疾病,卻發現能篩選到的族群都是健康的族群。例如二戰初期美軍飛機轟炸德國,結果轟炸機隊在面對防空火砲與德軍戰機時損失慘重。專家學者開始研究成功返航的轟炸機,發現轟炸機的機翼跟其他部位相比有最多受攻擊的彈孔殘留,因此決定強化機翼結構與保護,但後來才驚覺到,能成功返航的轟炸機就是因為都只有被打到機翼的部分,因為如果被打到其他部分(引擎、駕駛艙)等等,早就解體或墜機了。


Confounder 干擾因子


Confounder又被翻譯成干擾因子。在做研究時,我們希望研究特定危險因子與我們有興趣的結果之間的關聯。但是若有一些confounder 同時與特定危險因子與我們有興趣的結果之間都有關係的話,很有可能就會影響到統計的結果。

最有名的例子是咖啡跟肺癌。自20世紀中後葉開始,專家學者們開始發現肺癌的發生率與比例開始節節上升,但是還未有個定論,因此大家開始去研究到底哪些東西跟肺癌有關係。

有學者發表論文,說咖啡喝很多的人也有很高的機率會有肺癌!但後來才發現,原來是因為做研究的時空背景下(1960-1970年代的美國)會喝咖啡的人大部分也都會抽煙,所以才造成大家以為統計出來咖啡跟肺癌有關係。

在這個例子中,咖啡就是 confounder。然而在面對未知領域時,confounder到底是哪個東西其實很難馬上判定,所以只能藉由不停用各種測試方法去反覆驗證。

而當我們懷疑某個變數是 confounder 時,就應該要用不同方式去控制他,讓大家的變數都盡量相同,再繼續去做實驗/對照組的比對。

常見有幾個 Controlling for confounders 的方法,簡單介紹如下:

  • Restriction:收集 data 以及招募受試者時,全部都只招募具有某項你懷疑是 confounder 的因子的受試者(或是反過來,只招募沒有某項你懷疑是 confounder 的因子的受試者)。
    • 優點:相對容易執行。
    • 缺點:Sample size 容易因此受限、無法控制其他可能的 confounders。
  • Matching:每個實驗組的受試者,都有一個對應的對照組的受試者;這兩者的某項你懷疑是 confounder 的因子都是一樣的(同樣具有、或是同樣沒有這個因子)
    • 優點:每問受試者都有相對應的人可以比較。
    • 缺點:很難每個實驗組與對照組的受試者都完全可以配對成功。
  • Statistical control:用統計學的方式來讓 confounder 的影響降低。常見的有兩種
    • Regression model:將某項你懷疑是 confounder 的因子放進 regression model 中,這樣就可以用不同統計技巧來控制這個因子。
    • Propensity score:一般的 regression model可以寫成Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)。但假設我們認為 X1 是 major risk factor,而且 X1 是 dichotomous variable的話,那麼我們可以新設立一個 logistic regression model: X1 = B*X2 + C*X3 + D*X4… + ε (常數),並且利用 logistic regression model 的特性,去計算帶入不同X因子時,X1 的 probability ,最後依照 probability 的高低得出一個「propensity score」。Propensity score 的目的是要在其他 Xs 在被控制的狀況下,去分析 major risk factor X1 與 outcome Y 的關係。
    • 優點:方便執行、可以在搜集好資料要開始跑統計時再進行。
    • 缺點:只能處理已知的 potential confounders、無法處理未知的 potential confounders。
  • Randomization:使用電腦軟體或亂數表,將受試者隨機分配,也就是隨機將受試者分配到實驗組與對照組。讓某項你懷疑是 confounder 的因子對於研究結果的影響降到最低。
    • 優點:很有效力、如果有些無法觀察到的 confounder 也可以一併藉由隨機分配的關係將影響降低。
    • 缺點:較難執行、經費花費可能較高、必須在開始 data collection 以前就先分組好。


Effect modifiers 效果修飾


某個因子存在時,搭配上別的因子存在時,會有比兩者各自單獨存在時,對於結果有更強的效果。

可以簡單理解成同樣要煮雞湯,加入鹽會讓雞湯更好喝、加入香菇也會讓雞湯更好喝,但是「同時加入鹽及香菇的美味度」,比「只加鹽的美味度」與「只加香菇的美味度」多出很多,可以理解成 Effect Modifiers。

也可以這樣理解:比起不抽煙的人,抽菸的人得到口腔癌的機率多18倍。比起不吃檳榔的人,吃檳榔的人得到口腔癌的機率多28倍。

比起不抽煙不吃檳榔的人,如果抽菸又吃檳榔,得到口腔癌的機率高了89倍(高雄醫學大學葛應欽教授 1995 年發表於「口腔病理學及口腔內科學雜誌」),那麼我們可以考慮說檳榔在抽煙對於口腔癌的效果上,是 effect modifiers;或者兩者具有 synergistic effect 。

兩者有正向加成效果,則稱為 positive synergistic effect。若兩者有負向加成效果,則稱為 negative synergistic effect。

常見的方式是在 regression model 中放入 interactive term。(放入連結)

Bias 以及 confounders 是我們在做研究中不可避免會遇到的問題,但我們仍然要盡量用各種方法去減少 bias 以及 confounders 的影響。Effect modifiers 卻是我們在研究中希望可以發現以及好好深入探索的因子,因為我們可以對我們有興趣的結果的各種作用路徑與發生過程有更多了解。

其他流行病學與生物統計學筆記:請按這裡