作者:許承越
從前陣子COVID-19疫情開始嚴重起來之後,每天有多少病例被「驗」出來就成為大家每天關心的大事情。但到底懷疑的病例有多少會被驗出來,以及檢驗出陽性的病例中,有多少是真的有得到這個病呢?也就是說,這個試驗到底可不可靠呢?
試驗的 信度 (reliability) 與 效度 (validity)
在討論一個試驗可不可靠以前,我們要先瞭解什麼叫做信度 (reliability) 與效度 (validity)。
如果針對差不多背景的受檢對象,一個試驗每次得出的結果都可以得出差不多的結果,得到的數值都在一定的小範圍內,那們我們可以說這個試驗有好的信度reliability。
而效度validity,則是一個試驗分辨出受檢對象真實數值的能力,或者是分辨受測者到底有得病還是沒得病的精準程度,又可以分為敏感性(sensitivity)以及特異性(specificity)。
不過請注意,當然有些試驗信度與效度都很好,那當然是很可靠的試驗。不過信度好不一定效度好,反之亦然,效度好不一定信度好,例如有10位同學的體重都落在55-60公斤之間,但這個體重機怎麼量都是介於65-70公斤之間,可以說這個體重機有好的信度但是有不夠好的效度。
敏感性 (sensitivity) 與 特異性 (specificity)
- 敏感性sensitivity:在一個試驗中,有得病的人口被正確檢驗出有得病(陽性)的比例。
- 特異性specificity:在一個試驗中,沒有得病的人口被正確檢驗出沒有得病(陰性)的比例。
反之,在這個試驗中,有得病卻呈現陰性結果的部分被稱為偽陰性(flase negative),其值為1-sensitivity;而沒得病卻被驗成有病的部分被稱為偽陽性(false positive),其值為1-specificity。
陽性預測值與陰性預測值
那麼我們要怎麼知道檢驗結果為陽性的人之中,有多少是真正的陽性,以及檢驗結果為陰性的人之中,有多少是真正的陰性呢?這時,我們就要依賴陽性預測值與陰性預測值了。
- 陽性預測值(positive predictive value, PPV):結果為陽性的人之中,真正陽性的比例。
- 陰性預測值(negative predictive value, NPV):結果為陰性的人之中,真正陰性的比例。
所以,如果要相同的試驗方式去檢驗不同的族群,PPV和NPV會是相同的嗎?我們來比較看看:
答案是不會。因為PPV及NPV會因為受驗對象中的疾病盛行率不同而有所不同。從上面的推論可以看到,隨著疾病的盛行率上升,試驗方式的PPV會上升,而NPV會些微下降。
前陣子有不少人在爭論是否要進行普篩時,前副總統陳建仁博士(同時是世界級的流行病學家)有在自己的Facebook專頁上用很淺顯的方式解釋盛行率與檢驗結果準確程度之間的關係。原文在這邊提供大家去觀摩朝聖一下。
同時他也有提到另一個重要的觀念,如果針對同一個族群使用不同specificity的試驗方式,specificity 越低,產生偽陽性的機會越高。
請大家記得,雖然PPV及NPV會因為人口中的疾病盛行率而變化,但是一個試驗方式的效度,也,sensitivity以及specificity,會是固定不變的,因為使用的是同一個試驗方式。
那如果是使用多個不同的試驗,綜合起來呢?
Two-Stage Tests 以及 Simultaneous Tests
那麼在診斷時,綜合使用不同測驗,sensitivity和specificity,會有差別嗎?
答案是會的,不過要看你要怎麼使用
- Two-Stage Tests:也就是先進行第一次試驗,等試驗結果出來以後,那些陽性的患者會再被請回醫院做第二次(通常是比較昂貴或比較侵入性的)試驗。將這兩次試驗綜合起來算最後的sensitivity和specificity,也就是有病/沒病的人被正確診斷出有病/沒病的比例,sensitivity會下降、specificity會上升。
- Simultaneous Tests:也就是同時進行兩次試驗,將這兩次試驗綜合起來算最後的sensitivity和specificity,也就是有病/沒病的人被正確診斷出有病/沒病的比例,sensitivity會上升、specificity會下降。
所以可以根據要篩檢的疾病特性以及希望得到什麼結果,來決定不同試驗綜合起來如何使用。
詳細推論過程有點複雜,大家有興趣再慢慢研究,這邊可以記結論就好。
總之,陽性、陰性、偽陽性、偽陰性、陽性預測值、陰性預測值,都是很重要的概念,也是臨床人員在面對試驗結果與數據時的重要依據,在判讀時要弄清楚這些觀念。
其他流行病學與生物統計學筆記:請按這裡