在統(tǒng)計(jì)學(xué)中,自助法(Bootstrap Method,Bootstrapping或自助抽樣法)是一種從給定訓(xùn)練集中有放回的均勻抽樣,也就是說(shuō),每當(dāng)選中一個(gè)樣本,它等可能地被再次選中并被再次添加到訓(xùn)練集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上發(fā)表。當(dāng)樣本來(lái)自總體,能以正態(tài)分布來(lái)描述,其抽樣分布(Sampling Distribution)為正態(tài)分布(The Normal Distribution);但當(dāng)樣本來(lái)自的總體無(wú)法以正態(tài)分布來(lái)描述,則以漸進(jìn)分析法、自助法等來(lái)分析。采用隨機(jī)可置換抽樣(random sampling with replacement)。對(duì)于小數(shù)據(jù)集,自助法效果很好。
簡(jiǎn)介在統(tǒng)計(jì)學(xué)中,自助法(Bootstrap Method,Bootstrapping,或自助抽樣法)是一種從給定訓(xùn)練集中有放回的均勻抽樣,也就是說(shuō),每當(dāng)選中一個(gè)樣本,它等可能地被再次選中并被再次添加到訓(xùn)練集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上發(fā)表。當(dāng)樣本來(lái)自總體,能以正態(tài)分布來(lái)描述,其抽樣分布(Sampling Distribution)為正態(tài)分布(The Normal Distribution);但當(dāng)樣本來(lái)自的總體無(wú)法以正態(tài)分布來(lái)描述,則以漸進(jìn)分析法、自助法等來(lái)分析。采用隨機(jī)可置換抽樣(random sampling with replacement)。對(duì)于小數(shù)據(jù)集,自助法效果很好。1
.632自助法最常用的一種是.632自助法,假設(shè)給定的數(shù)據(jù)集包含d個(gè)樣本。該數(shù)據(jù)集有放回地抽樣d次,產(chǎn)生d個(gè)樣本的訓(xùn)練集。這樣原數(shù)據(jù)樣本中的某些樣本很可能在該樣本集中出現(xiàn)多次。沒(méi)有進(jìn)入該訓(xùn)練集的樣本最終形成檢驗(yàn)集(測(cè)試集)。 顯然每個(gè)樣本被選中的概率是1/d,因此未被選中的概率就是(1-1/d),這樣一個(gè)樣本在訓(xùn)練集中沒(méi)出現(xiàn)的概率就是d次都未被選中的概率,即(1-1/d)。當(dāng)d趨于無(wú)窮大時(shí),這一概率就將趨近于e=0.368,所以留在訓(xùn)練集中的樣本大概就占原來(lái)數(shù)據(jù)集的63.2%。2
Bootstrap自助法最常用的一種Bootstrap自助法,假設(shè)給定的數(shù)據(jù)集包含d個(gè)樣本。該數(shù)據(jù)集有放回地抽樣m次,產(chǎn)生m個(gè)樣本的訓(xùn)練集。這樣原數(shù)據(jù)樣本中的某些樣本很可能在該樣本集中出現(xiàn)多次。沒(méi)有進(jìn)入該訓(xùn)練集的樣本最終形成檢驗(yàn)集(測(cè)試集)。 顯然每個(gè)樣本被選中的概率是1/m,因此未被選中的概率就是(1-1/m),這樣一個(gè)樣本在訓(xùn)練集中沒(méi)出現(xiàn)的概率就是m次都未被選中的概率,即(1-1/m)^m。當(dāng)m趨于無(wú)窮大時(shí),這一概率就將趨近于e^-1=0.368,所以留在訓(xùn)練集中的樣本大概就占原來(lái)數(shù)據(jù)集的63.2%。
例如:人工樣本為1,2,3;只有三個(gè)樣本,則可以從隨機(jī)變量X,分布為P(X=k)=1/3, k=1,2,3; 這樣的經(jīng)驗(yàn)分布中用計(jì)算機(jī)根據(jù)上述分布自動(dòng)產(chǎn)生樣本,如產(chǎn)生5個(gè)樣本:1 2 3 2 1;也可以是:3 3 2 1 1
自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練集和測(cè)試集時(shí)很有用;此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,這對(duì)集成學(xué)習(xí)等方法有很大的好處。然而,自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,這會(huì)引入估計(jì)偏差。因此,在初始數(shù)據(jù)量足夠時(shí),留出法和交叉驗(yàn)證法更常用一些。1
本詞條內(nèi)容貢獻(xiàn)者為:
尹維龍 - 副教授 - 哈爾濱工業(yè)大學(xué)