版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-離群值

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

離群值的產(chǎn)生原因

離群值的產(chǎn)生原因大致有兩點(diǎn):

(1)總體固有變異的極端表現(xiàn), 這是真實(shí)而正常的數(shù)據(jù), 只是在這次實(shí)驗(yàn)中表現(xiàn)的有些極端,這類離群值與其余觀測(cè)值屬于同一總體。

(2)由于試驗(yàn)條件和實(shí)驗(yàn)方法的偶然性, 或觀測(cè)、 記錄、計(jì)算時(shí)的失誤所產(chǎn)生的結(jié)果,是一種非正常的、錯(cuò)誤的數(shù)據(jù),這些數(shù)據(jù)與其余觀測(cè)值不屬于同一總體。

離群值的判斷在一組平行測(cè)定所得到的分析數(shù)據(jù)中,有時(shí)會(huì)出現(xiàn)個(gè)別測(cè)定值與其他數(shù)據(jù)相差較遠(yuǎn),這些數(shù)據(jù)稱為離群值或逸出值(Qutlier)。

對(duì)離群值的處理有一些統(tǒng)計(jì)判斷的方法,如chanwennt準(zhǔn)則規(guī)定,如果一個(gè)數(shù)值偏離觀測(cè)平均值的概率小于等于1/(2n),則該數(shù)據(jù)應(yīng)當(dāng)舍棄(其中n為觀察例數(shù),概率可以根據(jù)數(shù)據(jù)的分布進(jìn)行估計(jì))。

發(fā)現(xiàn)離群值可以通過觀察值的頻數(shù)表或直方圖來初步判斷,也可通過統(tǒng)計(jì)軟件作觀察值的箱式圖來判斷,如果觀測(cè)值距箱式圖底線Q1(第25百分位數(shù))或頂線Q3(第75百分位數(shù))過遠(yuǎn),如超出箱體高度(四分位數(shù)間距)的兩倍以上,則可視該觀測(cè)值為離群值。當(dāng)數(shù)據(jù)近似正態(tài)分布時(shí),有一種較為簡(jiǎn)單的方法,可用均數(shù)加減2.5s來判斷,如觀測(cè)值在此范圍以外,可視為離群值。

在統(tǒng)計(jì)學(xué)上也可用線性回歸的方法來對(duì)離群值進(jìn)行判斷。當(dāng)出現(xiàn)離群值的時(shí)候,要慎重處理,要將專業(yè)知識(shí)和統(tǒng)計(jì)學(xué)方法結(jié)合起來,首先應(yīng)認(rèn)真檢查原始數(shù)據(jù),看能否從專業(yè)上加以合理的解釋,如數(shù)據(jù)存在邏輯錯(cuò)誤而原始記錄又確實(shí)如此,又無法在找到該觀察對(duì)象進(jìn)行核實(shí),則只能將該觀測(cè)值刪除。如果數(shù)據(jù)間無明顯的邏輯錯(cuò)誤,則可將離群值刪除前后各做一次統(tǒng)計(jì)分析,若前后結(jié)果不矛盾,則該例觀測(cè)值可予以保留。

離群值的處理方法離群值處理方法包括:

(1)保留離群值并用于后續(xù)數(shù)據(jù)處理;

(2)在找到實(shí)際原因時(shí)修正離群值,否則予以保留;

(3)剔除離群值,不追加觀察值;

(4)剔除離群值,并追加新的觀察值或用適宜的插補(bǔ)值代替。

離群值的檢驗(yàn)方法離群值的檢驗(yàn)可分為兩大類:一類是標(biāo)準(zhǔn)偏差預(yù)先已知的場(chǎng)合;另一類是標(biāo)準(zhǔn)偏差未知的場(chǎng)合。只能利用待檢驗(yàn)的一組分析數(shù)據(jù)本身來檢驗(yàn)其中的離群值是否為異常值。

標(biāo)準(zhǔn)偏差預(yù)先已知檢驗(yàn)時(shí)使用統(tǒng)計(jì)量:

式中, 是被檢驗(yàn)的離群值,X是一組測(cè)定值的算術(shù)平均值,σ是由不包括異常值在內(nèi)的其他實(shí)驗(yàn)測(cè)定值求得。如果根據(jù)上式計(jì)算的T值查表大于舍棄界限中相應(yīng)置信度下的臨界值,則將 作為異常值舍棄。

標(biāo)準(zhǔn)偏差未知在更多的情況下標(biāo)準(zhǔn)偏差是未知的,只能利用待檢驗(yàn)的一組分析數(shù)據(jù)本身來檢驗(yàn)其中的離群值是否應(yīng)該保留或舍棄。常用的方法有拉依達(dá)法、Q檢驗(yàn)法(狄克松法)、肖維特法、格魯布斯法、t檢驗(yàn)法、極差法等。

這些方法有著各自的特點(diǎn)和適用范圍:

(1)拉依達(dá)法使用方便,不需查表,但有失嚴(yán)密,測(cè)定次數(shù)較多或要求不高時(shí)可以應(yīng)用它;但測(cè)定次數(shù)較少時(shí),在一組測(cè)定值中即使混有異常值,有時(shí)也無法剔除。

(2)肖維特法比拉依達(dá)法有所改善,但從理論上考慮,當(dāng)n和 趨向無窮大的時(shí)候,此時(shí)所有的異常值都無法剔除。

(3)而Q檢驗(yàn)法、格魯布斯法、t檢驗(yàn)法和極差法等方法則考慮了置信度的因素,概率意義明確,使所得結(jié)果更為科學(xué)合理。

(4)Q檢驗(yàn)法的優(yōu)點(diǎn)是方法簡(jiǎn)便。當(dāng)測(cè)定次數(shù)較少時(shí),例如3~ 5次測(cè)定,Q檢驗(yàn)法拒絕接受的只是偏差很大的測(cè)定值,將非異常值判定為異常值的幾率是很小,但同時(shí)把異常值判斷為非異常值的可能性較大。

(5)格魯布斯法不僅設(shè)定了一定的置信度,而且引入了平均值和標(biāo)準(zhǔn)偏差,故判斷的準(zhǔn)確性比Q檢驗(yàn)法高,被中國(guó)國(guó)家標(biāo)準(zhǔn)推薦采用,也被美國(guó)實(shí)驗(yàn)材料協(xié)會(huì)推薦采用。

(6)t檢驗(yàn)法在處理數(shù)據(jù)前,預(yù)先“剔除”了被檢驗(yàn)的離群值,保證了計(jì)算標(biāo)準(zhǔn)偏差的正確性和獨(dú)立性,在理論上得到了較嚴(yán)格的結(jié)果,提高了測(cè)定精度和檢驗(yàn)的靈敏度。但如果在檢驗(yàn)之前預(yù)先剔除的數(shù)據(jù)也可能不是異常值,而只是極值,這樣就會(huì)造成計(jì)算的標(biāo)準(zhǔn)偏差偏小,原來位于限界的一些極值這時(shí)也可能被作為異常值舍棄。

(7)極差法優(yōu)點(diǎn)是簡(jiǎn)便,但在檢驗(yàn)時(shí),將本來為異常值而作為異常值保留下來的可能性較大1。