版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-可解釋變異

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶(hù)提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

可解釋變異(英語(yǔ):explained variation)在統(tǒng)計(jì)學(xué)中是指給定數(shù)據(jù)中的變異能被數(shù)學(xué)模型所解釋的部分。通常會(huì)用方差來(lái)量化變異,故又稱(chēng)為可解釋方差(explained variance)。

簡(jiǎn)介可解解變異外,總變異的剩余部分被稱(chēng)為未解釋變異(unexplained variation)或殘差(residual)。

線性回歸中的決定系數(shù)即為可解釋變異占總變異的比率。1

變異變異又可理解為離散程度。

在統(tǒng)計(jì)學(xué)里,離散程度dispersion)是指一個(gè)分布?jí)嚎s和拉伸的程度。離散程度主要有方差、標(biāo)準(zhǔn)差和四分位距等。

離散程度與位置或者集中趨勢(shì)相對(duì)。1

方差方差Variance),應(yīng)用數(shù)學(xué)里的專(zhuān)有名詞。在概率論和統(tǒng)計(jì)學(xué)中,一個(gè)隨機(jī)變量的方差描述的是它的離散程度,也就是該變量離其期望值的距離。一個(gè)實(shí)隨機(jī)變量的方差也稱(chēng)為它的二階矩或二階中心動(dòng)差,恰巧也是它的二階累積量。這里把復(fù)雜說(shuō)白了,就是將各個(gè)誤差將之平方(而非取絕對(duì)值,使之肯定為正數(shù)),相加之后再除以總數(shù),透過(guò)這樣的方式來(lái)算出各個(gè)數(shù)據(jù)分布、零散(相對(duì)中心點(diǎn))的程度。繼續(xù)延伸的話,方差的算術(shù)平方根稱(chēng)為該隨機(jī)變量的標(biāo)準(zhǔn)差(此為相對(duì)各個(gè)數(shù)據(jù)點(diǎn)間)。1

標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(又稱(chēng)標(biāo)準(zhǔn)偏差、均方差,英語(yǔ):StandardDeviation,縮寫(xiě)SD),數(shù)學(xué)符號(hào)σ(sigma),在概率統(tǒng)計(jì)中最常使用作為測(cè)量一組數(shù)值的離散程度之用。標(biāo)準(zhǔn)差定義:為方差開(kāi)算術(shù)平方根,反映組內(nèi)個(gè)體間的離散程度;標(biāo)準(zhǔn)差與期望值之比為標(biāo)準(zhǔn)離差率。1

四分位距四分位距(interquartile range, IQR)。是描述統(tǒng)計(jì)學(xué)中的一種方法,以確定第三四分位數(shù)和第一四分位數(shù)的分別(即的差距)。與變異數(shù)、標(biāo)準(zhǔn)差一樣,表示統(tǒng)計(jì)資料中各變量分散情形,但四分差更多為一種穩(wěn)健統(tǒng)計(jì)(robust statistic)。1

決定系數(shù)決定系數(shù)(英語(yǔ):coefficient of determination,記為R或r)在統(tǒng)計(jì)學(xué)中用于度量因變量的變異中可由自變量解釋部分所占的比例,以此來(lái)判斷統(tǒng)計(jì)模型的解釋力。

對(duì)于簡(jiǎn)單線性回歸而言,決定系數(shù)為樣本相關(guān)系數(shù)的平方。當(dāng)加入其他回歸自變量后,決定系數(shù)相應(yīng)地變?yōu)槎嘀叵嚓P(guān)系數(shù)的平方。

假設(shè)一數(shù)據(jù)集包括y1,...,yn共n個(gè)觀察值,相對(duì)應(yīng)的模型預(yù)測(cè)值分別為f1,...,fn。定義殘差ei=yi?fi,平均觀察值為

于是可以得到總平方和

回歸平方和

殘差平方和

由此,決定系數(shù)可定義為2

本詞條內(nèi)容貢獻(xiàn)者為:

王沛 - 副教授、副研究員 - 中國(guó)科學(xué)院工程熱物理研究所