概述
非參數(shù)統(tǒng)計是統(tǒng)計學(xué)的一個重要分支,它在實(shí)踐中有著廣泛的應(yīng)用。所謂統(tǒng)計推斷,就是由樣本觀察值去了解總體,它是統(tǒng)計學(xué)的基本任務(wù)之一。若根據(jù)經(jīng)驗或某種理論我們能在推斷之前就對總體作一些假設(shè),則這些假設(shè)無疑有助于提高統(tǒng)計推斷的效率。這種情況下的統(tǒng)計方法稱為“參數(shù)統(tǒng)計”。如果我們所知很少,以致于在推斷之前不能對總體作任何假設(shè),或僅能作一些非常一般性(例如連續(xù)分布、對稱分布等)的假設(shè),這時如果仍然使用參數(shù)統(tǒng)計方法,其統(tǒng)計推斷的結(jié)果顯然是不可信的,甚至有可能是錯的。在對總體的分布不作假設(shè)或僅作非常一般性假設(shè)條件下的統(tǒng)計方法稱為“非參數(shù)統(tǒng)計”。
由于非參數(shù)統(tǒng)計方法與總體究竟是什么分布幾乎沒有什么關(guān)系,所以它的應(yīng)用范圍很廣,它在社會學(xué)、醫(yī)學(xué)、生物學(xué)、心理學(xué)、教育學(xué)等領(lǐng)域都有著廣泛的應(yīng)用。由于有關(guān)于總體的假設(shè),所以參數(shù)統(tǒng)計的推斷方法是針對這個假設(shè)的。相對而言,非參數(shù)統(tǒng)計的推斷方法是很一般的,它僅應(yīng)用樣本觀察值中一些非常直觀(例如次序)的信息。所以非參數(shù)統(tǒng)計分析含有豐富的統(tǒng)計思想。
舉例說明例如,檢驗“兩個總體有相同分布”這個假設(shè),若假定兩總體的分布分別為正態(tài)分布N(μ1,σ2)和N(μ2,σ2),則問題只涉及三個實(shí)參數(shù)μ1,μ2,σ2,這是參數(shù)統(tǒng)計問題。若只假定兩總體的分布為連續(xù),此外一無所知,問題涉及的分布不能用有限個實(shí)參數(shù)刻畫,則這是非參數(shù)統(tǒng)計問題。又如,估計總體分布的期望μ,若假定總體分布為正態(tài) N(μ,σ2),則問題是參數(shù)性的;若只假定總體分布的期望值存在,則問題是非參數(shù)性的。不過參數(shù)統(tǒng)計與非參數(shù)統(tǒng)計之間并沒有涇渭分明的界線。
例外有的統(tǒng)計問題,從不同的角度,可以理解為參數(shù)性的,也可以理解為非參數(shù)性的。例如線性回歸(見回歸分析)問題,若關(guān)心的是估計回歸系數(shù),它只是有限個實(shí)參數(shù),因而可以看成是參數(shù)性的。但是,如果對隨機(jī)誤差的分布類型沒有作任何假定,則從問題的總體分布這個角度看,也可以看成是非參數(shù)性的。
統(tǒng)計方法重要的非參數(shù)統(tǒng)計方法秩方法是基于秩統(tǒng)計量(見統(tǒng)計量)的一類重要的非參數(shù)統(tǒng)計方法。設(shè)有樣本X1,X2,…,Xn,把它們由小到大排列,若Xi在這個次序中占第Ri個位置(最小的占第1個位置),則稱Xi的秩為Ri(i=1,2,…,n)。1945年F.威爾科克森提出的"兩樣本秩和檢驗"是一個有代表性的例子。設(shè)X1,X2,…,Xm和Y1,Y2,…,Yn分別是從分布為 F(x)和 F(x-θ)的總體中抽出的樣本,F(xiàn)連續(xù)但未知,θ也未知,檢驗假設(shè) H:θ=0,備擇假設(shè)為θ>0(見假設(shè)檢驗)。記Yi在混合樣本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩為Ri,且為諸秩的和,當(dāng)W >C時,否定假設(shè)H,這里C決定于檢驗的水平。這是一個性能良好的檢驗。秩方法的一個早期結(jié)果是C.斯皮爾曼于1904年提出的秩相關(guān)系數(shù)。設(shè)(X1,Y1),(X2,Y2),…,(Xn,Yn)是從二維總體(X,Y)中抽出的樣本,Ri為Xi在(X1,X2,…,Xn)中的秩,Qi為Yi在(Y1,Y2,…,Yn)中的秩,定義秩相關(guān)系數(shù)為(Ri,Qi)(i=1,2,…n)的通常的相關(guān)系數(shù)(見相關(guān)分析)。它可以作為X、Y之間相關(guān)程度的度量,也可用于檢驗關(guān)于X、Y獨(dú)立性的假設(shè)。
次序統(tǒng)計量和U 統(tǒng)計量在非參數(shù)統(tǒng)計中也有重要應(yīng)用。前者可用于估計總體分布的分位數(shù)(見概率分布)、檢驗兩總體有相同的分布及構(gòu)造連續(xù)總體分布的容忍限和容忍區(qū)間(見區(qū)間估計)等。后者主要用于構(gòu)造總體分布的數(shù)字特征的一致最小方差無偏估計(見點(diǎn)估計)及基于這種估計的假設(shè)檢驗。
蘇聯(lián)數(shù)學(xué)家Α.Η.柯爾莫哥洛夫和Β.И.斯米爾諾夫在20世紀(jì)30年代的工作開辟了非參數(shù)統(tǒng)計的一個方面,他們的方法基于樣本X1,X2,…,Xn的經(jīng)驗分布函數(shù)Fn(x)(見樣本)??聽柲缏宸蚩疾?Fn(x)與理論分布F(x)的最大偏差墹n,當(dāng)墹n超過一定限度時,否定這個理論分布F(x)。這就是柯爾莫哥洛夫檢驗。斯米爾諾夫則考察由兩個分布為F(x)和g(x)的總體中抽出的樣本X1,X2,…,Xm和Y1,Y2,…,Yn計算其經(jīng)驗分布Fm(x)和gn(x)的最大偏差墹mn,當(dāng)墹mn超過一定限度時,否定“F與g相等”這個假設(shè)。這就是斯米爾諾夫檢驗。
在非參數(shù)性估計方面,有關(guān)于估計分布的對稱中心、概率密度函數(shù)和回歸函數(shù)等比較重要的成果1。
基本特點(diǎn)非參數(shù)統(tǒng)計問題中對總體分布的假定要求的條件很寬,因而針對這種問題而構(gòu)造的非參數(shù)統(tǒng)計方法,不致因為對總體分布的假定不當(dāng)而導(dǎo)致重大錯誤,所以它往往有較好的穩(wěn)健性(見穩(wěn)健統(tǒng)計),這是一個重要特點(diǎn)。但因為非參數(shù)統(tǒng)計方法需要照顧范圍很廣的分布,在某些情況下會導(dǎo)致其效率的降低。不過,近代理論證明了:一些重要的非參數(shù)統(tǒng)計方法,當(dāng)與相應(yīng)的參數(shù)方法比較時,即使在最有利于后者的情況下,效率上的損失也很小。
由于非參數(shù)統(tǒng)計中對分布假定要求的條件寬,因而大樣本理論(見大樣本統(tǒng)計)占據(jù)了主導(dǎo)地位。第二次世界大戰(zhàn)前,非參數(shù)統(tǒng)計的大樣本理論已有了一些結(jié)果,從20世紀(jì)50年代直到現(xiàn)代,更有了顯著的進(jìn)展,尤其是關(guān)于秩統(tǒng)計量與U 統(tǒng)計量的大樣本理論,及基于這種理論的大樣本非參數(shù)方法,研究成果很多。
適用范圍非參數(shù)統(tǒng)計最常用于具備下述特征的情況:
1、待分析數(shù)據(jù)不滿足參數(shù)檢驗所要求的假定,因而無法應(yīng)用參數(shù)檢驗。例如,我們曾遇到過的非正態(tài)總體小樣本,在t-檢驗法也不適用時,作為替代方法,就可以采用非參數(shù)檢驗。
2、僅由一些等級構(gòu)成的數(shù)據(jù),不能應(yīng)用參數(shù)檢驗。例如,消費(fèi)者可能被問及對幾種不同商標(biāo)的飲料的喜歡程度,雖然,他們不能對每種商標(biāo)都指定一個數(shù)字來表示他們對該商標(biāo)的喜歡程度,卻能將幾種商標(biāo)按喜歡的順序分成等級。這種情形也宜采用非參數(shù)檢驗。
3、所提的問題中并不包含參數(shù),也不能用參數(shù)檢驗。例如,我們想判斷一個樣本是否為隨機(jī)樣本,采用非參數(shù)檢驗法就是適當(dāng)?shù)摹?/p>
4、當(dāng)我們需要迅速得出結(jié)果時,也可以不用參數(shù)統(tǒng)計方法而用非參數(shù)統(tǒng)計方法來達(dá)到目的。一般說來,非參數(shù)統(tǒng)計方法所要求的計算與參數(shù)統(tǒng)計方法相比,完成起來既快且易。有些非參數(shù)統(tǒng)計方法的計算,就算對統(tǒng)計學(xué)知識不熟練的人,也能在收集數(shù)據(jù)時及時予以完成2。
相對優(yōu)點(diǎn)非參數(shù)統(tǒng)計與傳統(tǒng)的參數(shù)統(tǒng)計相比,有以下優(yōu)點(diǎn):
1、非參數(shù)統(tǒng)計方法要求的假定條件比較少,因而它的適用范圍比較廣泛。
2、多數(shù)非參數(shù)統(tǒng)計方法要求的運(yùn)算比較簡單,可以迅速完成計算取得結(jié)果,因而比較節(jié)約時間。
3、大多數(shù)非參數(shù)統(tǒng)計方法在直觀上比較容易理解,不需要太多的數(shù)學(xué)基礎(chǔ)知識和統(tǒng)計學(xué)知識。
4、大多數(shù)非參數(shù)統(tǒng)計方法可用來分析如象由等級構(gòu)成的數(shù)據(jù)資料,而對計量水準(zhǔn)較低的數(shù)據(jù)資料,參數(shù)統(tǒng)計方法卻不適用。
5、當(dāng)推論多達(dá)3個以上時,非參數(shù)統(tǒng)計方法尤具優(yōu)越性。
相對缺點(diǎn)非參數(shù)統(tǒng)計方法也有以下缺點(diǎn):
1、由于方法簡單,用的計量水準(zhǔn)較低,因此,如果能與參數(shù)統(tǒng)計方法同時使用時,就不如參數(shù)統(tǒng)計方法敏感。若為追求簡單而使用非參數(shù)統(tǒng)計方法,其檢驗功效就要差些。這就是說,在給定的顯著性水平下進(jìn)行檢驗時,非參數(shù)統(tǒng)計方法與參數(shù)統(tǒng)計方法相比,第Ⅱ類錯誤的概率β要大些。
2、對于大樣本,如不采用適當(dāng)?shù)慕?,計算可能變得十分?fù)雜。
相關(guān)圖書圖書信息書名:非參數(shù)統(tǒng)計
ISBN:9787302191674
作者:王星等
定價:37元
出版日期:2009-3-1
出版社:清華大學(xué)出版社
圖書簡介本書是非參數(shù)統(tǒng)計教材,內(nèi)容從經(jīng)典非參數(shù)統(tǒng)計推斷到現(xiàn)代前沿,包括R基礎(chǔ)、基本概念、單一樣本的推斷問題、兩獨(dú)立樣本數(shù)據(jù)的位置和尺度推斷、多組數(shù)據(jù)位置推斷、分類數(shù)據(jù)的關(guān)聯(lián)分析、秩相關(guān)和分位數(shù)回歸、非參數(shù)密度估計、一元非參數(shù)回歸和數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)共計10章. 本書配有大量與社會、經(jīng)濟(jì)、金融、生物等專業(yè)相關(guān)的例題和習(xí)題,給出示范解答過程,方便自學(xué).
本書可以作為高等院校統(tǒng)計、經(jīng)濟(jì)、金融、管理專業(yè)的本科生課程的教材,也可以作為其他相關(guān)專業(yè)研究生的教材和教學(xué)參考書,另外,對廣大從事與統(tǒng)計相關(guān)工作的實(shí)際工作者也極具參考價值.
目錄第1章
基本概念和操作
環(huán)境
常量
算術(shù)運(yùn)算
賦值
向量的生成和基本操作
向量的生成
向量的基本操作
向量的運(yùn)算
向量的邏輯運(yùn)算
高級數(shù)據(jù)結(jié)構(gòu)
矩陣的操作和運(yùn)算
數(shù)組
數(shù)據(jù)框
列表
數(shù)據(jù)處理
保存數(shù)據(jù)
讀入數(shù)據(jù)
數(shù)據(jù)轉(zhuǎn)換
編寫程序
循環(huán)和控制
函數(shù)
基本統(tǒng)計計算
抽樣
統(tǒng)計分布圖形功能
函數(shù)
多圖顯示
幫助和包
習(xí)題
第2章
基本概念
非參數(shù)統(tǒng)計概念與產(chǎn)生
假設(shè)檢驗回顧
經(jīng)驗分布和分布探索
經(jīng)驗分布
生存函數(shù)
檢驗的相對效率
分位數(shù)和非參數(shù)估計
秩檢驗統(tǒng)計量
統(tǒng)計量
習(xí)題
第3章
單一樣本的推斷問題
符號檢驗和分位數(shù)推斷
基本概念
大樣本計算
符號檢驗在配對樣本比較中的應(yīng)用
分位數(shù)檢驗------符號檢驗的推廣趨勢存在性檢驗
隨機(jī)游程檢驗
符號秩檢驗
基本概念
符號秩檢驗和抽樣分布
單組數(shù)據(jù)的位置參數(shù)置信區(qū)間估計
順序統(tǒng)計量位置參數(shù)置信區(qū)間估計
基于方差估計法的位置參數(shù)置信區(qū)間估計
正態(tài)記分檢驗
分布的一致性檢驗
擬合優(yōu)度檢驗
正態(tài)性檢驗
正態(tài)分布檢驗
單一總體漸近相對效率比較
習(xí)題
第4章
兩獨(dú)立樣本數(shù)據(jù)的位置和尺度推斷中位數(shù)檢驗
秩和檢驗
方差檢驗
方差檢驗
習(xí)題
第5章
多組數(shù)據(jù)位置推斷
試驗設(shè)計和方差分析的基本概念回顧
單因素方差分析
檢驗
秩方差分析法
隨機(jī)區(qū)組數(shù)據(jù)的調(diào)整秩和檢驗
檢驗
不完全區(qū)組分析法
習(xí)題
第6章
分類數(shù)據(jù)的關(guān)聯(lián)分析
s$列聯(lián)表和$\chi^2$獨(dú)立性檢驗
齊性檢驗
精確性檢驗檢驗
關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則基本概念
算法
檢驗法
對數(shù)線性模型
對數(shù)線性模型的基本概念
模型的設(shè)計矩陣
模型的估計和檢驗
高維對數(shù)線性模型和獨(dú)立性
習(xí)題
第7章
秩相關(guān)和分位數(shù)回歸
秩相關(guān)檢驗
相關(guān)檢驗
多變量
協(xié)和系數(shù)檢驗
一致性檢驗
中位數(shù)回歸系數(shù)估計法
線性分位回歸模型
習(xí)題
第8章
非參數(shù)密度估計
直方圖密度估計
核密度估計
核函數(shù)的基本概念
貝葉斯決策和非參數(shù)密度估計
習(xí)題
第9章
一元非參數(shù)回歸
核回歸光滑模型
局部多項式回歸
局部線性回歸
局部多項式回歸的基本原理
穩(wěn)健回歸
近鄰回歸
正交序列回歸
罰最小二乘法
習(xí)題
第10章
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
分類一般問題
回歸模型
回歸模型的極大似然估計}
回歸和線性判別函數(shù)LDA
決策樹
決策樹基本概念
決策樹的剪枝
回歸樹
決策樹的特點(diǎn)
算法
支持向量機(jī)
最大邊距分類
支持向量機(jī)問題的求解
支持向量機(jī)的核方法
隨機(jī)森林樹
隨機(jī)森林樹算法的定義
隨機(jī)森林樹算法的性質(zhì)
如何確定隨機(jī)森林樹算法中樹的節(jié)點(diǎn)分裂變量
隨機(jī)森林樹的回歸算法
有關(guān)隨機(jī)森林樹算法的一些評價
多元自適應(yīng)回歸樣條的一些性質(zhì)}
附錄
參考文獻(xiàn)
3
出版者:中國統(tǒng)計出版社
書名:《非參數(shù)統(tǒng)計》(第二版)
作者:吳喜之 編著
開本:18開
字?jǐn)?shù):21萬字
出版時間:2006.10出版
定價:29.00元/冊
書號:ISBN 7-5037-4997-0/O.59
內(nèi)容介紹:
在初等統(tǒng)計學(xué)中,最基本的概念是總體,樣本,隨機(jī)變量,分布,估計和假設(shè)檢驗等,其很大一部分內(nèi)容是和正態(tài)理論相關(guān)的。在那里,總體的分布形式或分布族往往是給定的或者是假定了的。然而,在實(shí)際生活中, 那種對總體的分布的假定并不是能隨便做出的。有時,數(shù)據(jù)并不是來自所假定分布的總體;或者,數(shù)據(jù)根本不是來自一個總體;還有可能,數(shù)據(jù)因為種種原因被嚴(yán)重污染。這樣,在假定總體分布的情況下進(jìn)行推斷的做法就可能產(chǎn)生錯誤的、 甚至災(zāi)難性的結(jié)論。 于是,人們希望在不假定總體分布的情況下,盡量從數(shù)據(jù)本身來獲得所需要的信息。這就是非參數(shù)統(tǒng)計的宗旨。
《非參數(shù)統(tǒng)計》涉及了如下內(nèi)容:單樣本、兩樣本和多樣本位置參數(shù)的推斷,兩樣本和多樣本尺度參數(shù)的推斷,相關(guān)分析和穩(wěn)健回歸分析,關(guān)于分布的檢驗等基于秩的非參數(shù)統(tǒng)計的內(nèi)容;還涉及了與非參數(shù)統(tǒng)計方法有一定關(guān)系的對數(shù)線性模型,和并不是基于秩的非參數(shù)回歸。
它區(qū)別于國內(nèi)的其他介紹非參數(shù)統(tǒng)計的著作的特點(diǎn)是:盡量用嚴(yán)謹(jǐn)而平實(shí)的語言和簡單的公式介紹統(tǒng)計方法的思想和邏輯。而且本書作者還親自編寫了實(shí)現(xiàn)統(tǒng)計方法的R程序、SAS程序和SPSS程序的操作說明。
本書適合那些有初等統(tǒng)計基礎(chǔ),從事與應(yīng)用統(tǒng)計相關(guān),如醫(yī)學(xué),管理學(xué)等領(lǐng)域研究或?qū)嵺`的人員學(xué)習(xí)。當(dāng)然本書也適合統(tǒng)計研究或?qū)嵺`的。本書為普通高等教育“十一五”國家級規(guī)劃教材。4