WFU

2020年9月25日 星期五

常態分佈

 

作者:許承越


圖片



科學中有很多種機率分佈的狀態,而常態分佈是其中一種機率分布的現象,科學家發現在自然界中有許多現象的分佈都近似於常態分佈,而且常態分佈在科學上可以有許多應用。

詳細的推論過程和公式推討我就先跳過了,這邊主要是自己整理的一些重點與其在生物統計學上的應用。



常態分佈的特性


如同這篇文章一開始的常態分佈鐘形曲線圖,常態分佈的特性為:
  • 常態分佈在X軸為數據值且Y軸為機率的座標圖上,會呈現鐘形曲線。
  • X介於-∞和+∞之間。
  • 鐘形曲線的正中央,X的值=median(中位數)。
  • median=mean=mode(中位數=平均數=眾數)。
  • 一組數據如果呈現常態分佈,那麼這組常態分佈的曲線形狀由其平均值和標準差決定。
  • 鐘形曲線下的面積即為出現某數值的機率。(任選某個X值往上畫出一條直線,此直線會將鐘形曲線切成左右兩個區塊,左邊的面積就是在這組數值中任選一個會小於X值的機率,右邊的面積就是在這組數值中任選一個會大於X值的機率。
順帶一提,二項式分佈中,當期望值(=np)>5且標準差=n(1-p)>5時,二項式機率分佈可以等於常態分佈。

常態分佈的公式


如果一組數據呈現常態分佈,那麼我們可以藉由以下的公式來得知,當我們想要隨機抽取一個數值時,它的大小與其對應的被抽到機率。




以公式中間那行為例,也就是這組數值,以平均值正負一個標準差的範圍內,總共有68%的數值。也就是大家高中時有學過的68-95-99.7原則

假設,有1000位新生兒的平均出生體重以常態分佈呈現,平均值3200g、標準差為300g,那麼隨機選一個新生兒,其體重<3000g的機率有多少?

我們可以利用美國愛荷華州立大學提供的線上免費計算機(很好用,大推)計算出機率大概為25.4%。



如何知道一組數值跟常態分佈差多少?


有個名字聽起來很可愛的圖表,叫做QQ Plot(Quartile-Quartile Plot),也就是利用兩組數據的百分位數(5th, 10th, 25th, 50th, 75th, 90th, 95th)來比較兩組數字。

如果數據比較龐大的QQ Plot基本上要用統計軟體畫,網路上有很多教學,在這邊我就先跳過,推薦大家可以看我在youtube上找到的一位統計學老師張翔老師的介紹。大家可以從15:00的地方開始看。


利用QQ Plot,可以比較一組數值到底像不像常態分佈,如果不像的話差距又是多少,是很實用的工具。

其他流行病學與生物統計學筆記:請按這裡