正態(tài)分布(Normal distribution),又稱為常態(tài)分布或高斯分布,通常記作X~N(μ ,σ2)。其中, μ是正態(tài)分布的數(shù)學(xué)期望(均值), σ2是正態(tài)分布的方差。μ = 0,σ = 1的正態(tài)分布被稱為標(biāo)準(zhǔn)正態(tài)分布1。22
正態(tài)分布的概率密度函數(shù)顯示為典型的鐘形曲線,這一形狀類似于寺廟中的大鐘,因此也常被稱為鐘形曲線。作為一種連續(xù)分布,正態(tài)分布擁有完備的概率密度函數(shù)、累積分布函數(shù)、矩生成函數(shù)和特征函數(shù)等表達(dá)形式,并且具備明確的期望(即均值)、方差、偏度和峰度等數(shù)值特征。中心極限定理闡述了在一定條件下,多個獨(dú)立同分布的隨機(jī)變量的平均值會趨向于正態(tài)分布,這一現(xiàn)象在樣本量增大時尤為顯著2。
正態(tài)分布,最初由法國數(shù)學(xué)家棣莫弗(A. D. Moivre)在1733年引入3,最初的探索并未深入其在統(tǒng)計學(xué)上的應(yīng)用,尤其是在誤差分析方面。隨后,高斯(C. F. Gauss)提出了關(guān)于“正態(tài)誤差”的理論,并與拉普拉斯(P-S.Laplace)共同深入研究了正態(tài)分布的各項特性。
在現(xiàn)實世界中,許多自然和社會現(xiàn)象如考試成績和人體身高等,都近似遵循正態(tài)分布。這種分布是統(tǒng)計分析和概率論中的核心概念,廣泛應(yīng)用于諸如質(zhì)量控制、頻數(shù)估計以及制定醫(yī)學(xué)參考標(biāo)準(zhǔn)等領(lǐng)域2。正態(tài)分布在統(tǒng)計學(xué)領(lǐng)域具有深遠(yuǎn)的意義。
定義
概率密度函數(shù)
如果一維隨機(jī)變量的密度函數(shù)為:
其中
和
為常數(shù)且
,則稱隨機(jī)變量
服從參數(shù)為
的正態(tài)分布,記作
1,讀作X服從
。
為總體均數(shù),
為總體標(biāo)準(zhǔn)差4。這里N為”Normal distribution(正態(tài)分布)”一詞的首字母5。
特別地,當(dāng)時,正態(tài)分布
稱為標(biāo)準(zhǔn)正態(tài)分布,其密度函數(shù)為:
標(biāo)準(zhǔn)正態(tài)分布之所以重要,一個原因在于:任意的正態(tài)分布的計算很容易轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布
。容易證明:若
,則
5。
累積分布函數(shù)
累積分布函數(shù),也叫分布函數(shù),是概率密度函數(shù)的積分。概率密度函數(shù)與分布函數(shù)是一一對應(yīng)的,即知道其一即可求出另一個5。根據(jù)連續(xù)型隨機(jī)變量分布函數(shù)的定義,一般正態(tài)分布的分布函數(shù)為:
特別地,當(dāng)參數(shù)時,標(biāo)準(zhǔn)正態(tài)分布
的分布函數(shù)為
且有
。
圖形特征
正態(tài)分布可以通過一系列矩(moments)逐步揭示其圖形特征,包括位置、離散程度、對稱性和尾部特性。矩是關(guān)于隨機(jī)變量的期望值的函數(shù),用于描述分布的幾何和統(tǒng)計特性。設(shè)為隨機(jī)變量,c為常數(shù),k為正整數(shù),則
稱為
關(guān)于c點(diǎn)的k階矩。
均值
均值是分布的一階原點(diǎn)矩,定義為。對于正態(tài)分布,均值描述了分布的中心位置,即鐘形曲線的對稱軸所在的位置。在標(biāo)準(zhǔn)正態(tài)分布中,均值為0。正態(tài)分布是對稱的,因此均值也是分布的眾數(shù)和中位數(shù)。
方差
方差是分布的二階矩,定義為
它描述了隨機(jī)變量相對于均值的平均偏離程度。對于正態(tài)分布,方差決定了分布的寬度或離散性。較大的方差意味著分布較為分散,曲線更為平坦;較小的方差意味著分布更為集中,曲線更為尖銳。
固定的值不變,改變
的值,則曲線的位置不變,但隨著
的減小,曲線變得陡峭4。
偏度
偏度,也稱偏度系數(shù),是用來衡量統(tǒng)計數(shù)據(jù)分布的偏斜方向和程度的指標(biāo)6。偏度定義為:
偏度描述了概率分布密度曲線相對于平均值的不對稱性。
當(dāng)時,表示數(shù)據(jù)分布完全對稱,左右尾部長度相等,例如正態(tài)分布的偏度即為06。
時,稱分布為正偏,較多的數(shù)據(jù)值偏離了平均值向左側(cè)集中;
時,稱分布為負(fù)偏,較多的數(shù)據(jù)值偏離了平均值向右側(cè)集中7。若
顯著異于0,則說明分布與正態(tài)有較大的偏離。
峰度
峰度是描述數(shù)據(jù)分布形態(tài)陡緩程度的統(tǒng)計量,峰度越大,數(shù)據(jù)分布越陡峭,尾部越厚;峰度越小,數(shù)據(jù)分布越平滑6。峰度的計算公式為
正態(tài)分布的峰度為3,很多情況下,為方便計算,一般將正態(tài)分布的峰度值減去3,這樣使得其峰度變?yōu)?,更方便進(jìn)行比較。當(dāng)數(shù)據(jù)的峰度為0時,表示數(shù)據(jù)分布的陡緩程度與正態(tài)分布相同;峰度大于0,表示數(shù)據(jù)分布比正態(tài)分布更陡峭,而峰度小于0,表示數(shù)據(jù)分布比正態(tài)分布更平坦;峰度的絕對值越大,表示數(shù)據(jù)分布形態(tài)與正態(tài)分布的差異越大6。
性質(zhì)
無限可分性
當(dāng)多個隨機(jī)變量相互獨(dú)立且服從正態(tài)分布時,它們的線性組合仍然服從正態(tài)分布。具體而言,如果有一組獨(dú)立同分布的隨機(jī)變量,其中每個變量均服從正態(tài)分布
,那么對于任意實數(shù)系數(shù)
,其線性組合
也服從正態(tài)分布
。
在線性組合下,加法和標(biāo)準(zhǔn)乘法保持不變8。例如,如果且
是統(tǒng)計獨(dú)立的正態(tài)隨機(jī)變量,那么它們的和
也服從正態(tài)分布。同樣,它們的差也服從正態(tài)分布:
如果與
兩者是相互獨(dú)立的,則
與
的方差相等9。
最大熵
隨機(jī)變量的概率密度函數(shù)為
,當(dāng)期望
和方差
分別為: