WFU

2022年7月6日 星期三

常見統計方法:Survival analysis 生存分析

 作者:許承越

     photo credit to Unsplash, Scott Graham

流行病學中另外一個重要的研究方式,是Survival analysis。


顧名思義,就是研究受試者從特定/研究觀察時間開始,到 outcome 發生為止(通常是發病時間)的「存活」狀況,以及哪些因子會影響這些存活狀況與發病時間。


也因此,在統計進行時,需要所謂的 time-to-event data,也就是必須要把從特定觀察時間開始到觀察結束或是發病為止,經過了多少時間。


這種方式很常用在 prospective and continuous 的研究中,也就是當研究者招募一群受試者後,測量他們身上的各種變數與因子,或者提供不同程度的介入治療等等,並觀察這些受試者一群時間,最後去研究發病者與未發病者身上的差別。


Y = A*X1 + B*X2 + C*X3 + D*X4… + ε (常數)


只是這邊,Y 就變成了「到達outcome發生為止的時間」,也就是「time-to-event variable」。



Kaplan-Meier survival analysis

由 Kaplan 以及 Meier 兩位統計學者發展出來的方法,目前很常用。可以單看一個族群的存活狀況(也就是到發病為止的時間點),也可以比較不同受試組別間的存活狀況。


Kaplan-Meier 在比較不同組織間的差別可以使用 log-rank test 去比較(一樣如果 log-rank test p-value < 0.05 可以代表統計上有顯著差距)。


但如果要使用 Kaplan-Meier survival analysis,需要有幾個假設:1.  Outcome 發生率,在我們可以觀察到的病人與 lost-of-follow-up 的病人,是相同的(例如,失智症患者用藥對於延緩失智症的幫助,有可能會繼續 follow up 的患者本身失智症的狀況就不是很嚴重才有辦法繼續回診求診,有可能造成誤差,要謹慎處理)、2. 無論在什麼時候被研究者開始觀察的病人,outcome 發生率是相同的(也就是無論什麼時候 outcome 發生率都是相同的)、3. 不同受試者繼續被觀察與研究的機率是相同的(可以想成要是不同受試者 lost-of-follow-up的機率相同)、4. Outcome 發生機率在觀察期中沒有劇烈的變化。

圖為我自己之前練習做的 Kaplan-meier curve。在每個曲線往下的點,就代表有受試者發生了 outcome。統計軟體通常也可以在下面的空間呈現出在每個往下的點,有多少 outcome 發生,以及剩下多少還在 follow up 的試驗者;不過很多期刊通常為求畫面簡潔,這部分就不會放,以文字敘述即可。



Cox-regression models

主要是去看到特定時間點前,不同變數因子對於受試者在單位時間內發病(也就是抵達 outcome)的機率做比較,可以理解成不同變數與因子對於 incidence 的影響。

跑完統計的結果。


X的係數(A, B, C, D…)的意義是 Hazard ratio(HR),為增加 hazard ,也就是單位時間內 outcome 發生的機率


可以理解成不同變數與因子對於 incidence 的影響。而 Cox regression model 又被稱為 Cox proportional hazard regression model,就是假定研究的變數與因子(也就是 X 們),對於 time-to-event / incidence rate 的影響,在受試與觀察的過程中,都是成固定比例的。(Hazard function is proportional over the observation time)



Grouped data, life-table analysis, and log-linear Poisson regression

跟 Kalpan-Meier 或是 Cox 最大的不同就是,Life-table analysis 使用的是 grouped data。Grouped data 的意思是說,我們將 time-to-event 切成一段一段的 discrete time interval(or time bin)然後再利用 Life-Table estimates or log-linear Poisson regression 去分析。原始Data 可以是 continuous,但是我們可以把它變成grouped data。


Kaplan-Meier 分析跟統計的是 outcome 發生的確切時間點;相對的,Life-table analysis 分析時並不需要去知道 outcome 發生的確切時間點。只要知道被切成一段一段的不同時間段中, outcome 發生的比例就可以進行統計分析。


Poisson regression 的 Y 會是 incidence rate,所以 X 的係數就代表 incidence rate 的差異,但因為數學公式的關係,在取 log 後就會變成 incidence rate ratio,也就是 X 每增加或減少多少,incidence rate 會有幾倍(或幾分之幾)的影響。


其他流行病學與生物統計學筆記:請按這裡