WFU

2020年9月25日 星期五

Variable/Variation/Variance

 作者:許承越


    photo credit to: unsplash

上一篇簡單說明了到底什麼是生物統計學,這篇想來整理一下一些比較基礎的生物統計學名詞。

在這一篇有提到,因為生物統計學的目的是希望可以為「這個世界是如何運作的」提出簡潔有力的解釋方式,所以會特別著重在各個variable(中文應該譯成「變數」)之間的交互關係。



什麼是 Variable?


聽起來很抽象,但其實沒那麼可怕,其實就是我們做研究時想觀察的對象呈現出來的各式不同數據。依照研究本身的推論方式,又可以分為:
  • Response Variable:通常我們把以(Y)的方式呈現,也就是我們想測量的結果
  • Explanatory Variable:通常以(X)的方式呈現,也就是會影響或造成結果的變數,例如:
    • treatment/intervention
    • risk factors:對於測量結果會有影響的因子,例如抽菸對肺癌。
這兩個方式,可以想成大家國中時學到的函數關係,也就是Y= F(X)。舉例:我想知道不同降血糖藥物間對糖尿病人血糖控制的比較,那麼 explanatory variable 就是不同降血糖藥物=X、response variable 就是糖尿病人的血糖控制結果=Y。

而某個變數的呈現被認為是隨機的,我們稱之為 random variable。

根據變數本身的特性,又可以分為:
  • Quantitative:可以量化的數據
    • Continuous:連續的數值,例如身高、體重、血壓值等等。
    • Dsicrete:不連續的數值,例如幾個公司間已婚員工的數目、某個城市每天新診斷出幾個肝癌的病人、這個大樓中每位住戶平均每週運動幾次。
  • Qualitative:變數本身的特性或是種類,直接轉換成數字會有困難。
    • Nominal:無排序,關於變數本身特性的分類。
      • Binary/Dichotomous:存活/死亡、有病/沒病、有懷孕/沒懷孕。
      • Polychotomous:職業類別、居住地點。
    • Ordinal:有排序
      • 滿意度排序1-5、一組受試者依照健康程度分成 差-普通-良好。


什麼是 Variation?


同組的 variables 之間可能會有不同,而不同組的數據之間也會有不同,我們稱之為 variation,又可以分為
  • Natural Variation:不同的研究對象本來就會有各種不同的自然差異,例如一個班級的同學之中每個人的身高本來就不同。
  • Measurement Variation:可以想成是測量方式的誤差。例如:我的體重大約是50kg,但這體重計怎麼量都是47kg。Measurement variation 是一種 error,是測量方式與真實數據之間的誤差。


什麼是 Variance?


Variance就是一組數據與其平均值之間的差異,也就是大家國中高中數學課都有學過的變異數


順便提一下什麼是Bias:


Bias就是一組數據的「觀察後得到的測量值」與其「實際上的數值」之間的錯誤,bias是一種系統性的錯誤(systemic error)。至於bias的種類,之後我們再來討論。

而在生物統計學中,我們衡量一組資料的誤差時,會用下面這個公式去衡量。



這樣子原本容易搞混的variable/variation/variance是不是有比較清楚了呢?其實之後如果覺得快搞混的時候,只要回頭來看看定義,應該就可以釐清了!

其他流行病學與生物統計學筆記:請按這裡





Mean