與連續(xù)量對(duì)應(yīng)的離散量
基本介紹
可以說“這個(gè)筐里有多少個(gè)蘋果”,而不能說“這個(gè)桶里有多少個(gè)水”,對(duì)于水只能說多少而不能說多少個(gè)。這樣,多少個(gè)和多少之間就有了明顯的區(qū)別。
蘋果是一個(gè)個(gè)分離、獨(dú)立存在的,像這類東西(數(shù)學(xué)上稱作集)在數(shù)數(shù)目的時(shí)候,回答是多少個(gè),這類東西就稱作離散量。例如,人群、鳥群、棍子捆,全都是離散量,因?yàn)檫@些都是一個(gè)個(gè)相互分離的。在數(shù)離散量時(shí)總是說1,2,3,…,稱為自然數(shù)或正整數(shù)。
與數(shù)多少個(gè)的離散量相比較,像測(cè)量水有多少這樣的量就稱作連續(xù)量。因?yàn)橥袄锏乃皇且粋€(gè)個(gè)分離的,而是連續(xù)變化的。
水無論分到多么細(xì)小也是水,是不會(huì)變的。還有,當(dāng)把兩個(gè)桶里的水倒在一起,仍然是連續(xù)的水,看不到有接縫的地方。
像這樣能夠自由地分開和結(jié)合的東西就稱為連續(xù)量。然而,離散量和連續(xù)量的區(qū)別也并不是絕對(duì)的。例如,我們說多少米的布料是連續(xù)量,但若將其縫制成人們所穿的西裝,就必須考慮它已成為離散量了。另外,俄國(guó)有一個(gè)故事說;“有位老奶奶要給三個(gè)孫子分吃兩個(gè)土豆,因?yàn)椴缓梅指?,就把土豆做成了湯,分給三個(gè)孫子喝了?!崩夏棠淌前央x散量的土豆,變成了連續(xù)量的土豆湯,從而解決了難題。在人類靠摘取樹木的果實(shí)和獵取野獸來維持生活的時(shí)候,只數(shù)離散量就足夠了,不會(huì)產(chǎn)生什么差錯(cuò)。在數(shù)樹木的果實(shí)和野獸這樣的離散量時(shí),就說1,2,3,…自然數(shù)就行了。后來隨著農(nóng)業(yè)和畜牧業(yè)的發(fā)展,集體活動(dòng)和集體生活的興盛,就有了考慮連續(xù)量的要求了。假定有10個(gè)人捕獲了7只鹿,當(dāng)需要把7只鹿的肉分成相等的10份的時(shí)候,或者需要用鹿肉去交換其他東西的時(shí)候,自然就產(chǎn)生了考慮分割連續(xù)量的問題了。另外,像谷物的量、田地的面積、道路的里程等都是需要知道的,而這些都是連續(xù)量1。
物理學(xué)中的連續(xù)量和離散量
連續(xù)量通常稱做模擬量,它在時(shí)間上和數(shù)量上是連續(xù)的物理量。如溫度計(jì)用水銀長(zhǎng)度來表示溫度高低。其特點(diǎn)是數(shù)值由連續(xù)量表示,其運(yùn)算過程也是連續(xù)的。如《溫度變化的連續(xù)量曲線圖》所示。
離散量又稱數(shù)字量,它是將模擬量離散化之后得到的物理量。即任何儀器設(shè)備對(duì)于模擬量都不可能有完全精確的表示,因?yàn)樗鼈兌加幸粋€(gè)采樣周期,在該采樣周期內(nèi),其物理量的數(shù)值都是不變的,而實(shí)際上的模擬量則是變化的。這樣就將模擬量離散化,從而成為離散量。如一天中以每小時(shí)為單位測(cè)量一次溫度的值,則得到24h內(nèi)離散的時(shí)間點(diǎn)上的溫度值,如《溫度變化的離散量曲線圖》所示2。
描述離散趨勢(shì)的統(tǒng)計(jì)量
盡管集中量可以很好地描述一組數(shù)據(jù)的特征,但僅用這些統(tǒng)計(jì)量還是不夠的。還需要考慮數(shù)據(jù)的分散情況。有時(shí),兩組數(shù)據(jù)的平均數(shù)和中位數(shù)可能完全相同,但這兩組數(shù)據(jù)之間會(huì)存在著很大的區(qū)別。請(qǐng)看下面兩組數(shù)據(jù):
A組:79 79 79 80 81 81 81
B組:50 60 70 80 90 100 110
這兩組數(shù)據(jù)的平均數(shù)和中位數(shù)均為80,但不能據(jù)此就簡(jiǎn)單認(rèn)為這兩組學(xué)生的水平是一樣的。A組數(shù)據(jù)與B組數(shù)據(jù)之間顯然是有區(qū)別的。首先,A組中的數(shù)據(jù)相對(duì)比較集中,每個(gè)數(shù)據(jù)的值與平均數(shù)80相差無幾;而B組中的數(shù)據(jù)相對(duì)分散一些,參差不齊,它反映了數(shù)據(jù)分布的另一個(gè)重要特征——變異性(variability)。描述數(shù)據(jù)離散趨勢(shì)的統(tǒng)計(jì)量稱為離散量(measures of dispersion),或稱差異量。
集中量描述了一組數(shù)據(jù)的典型情況,離散量則反映了數(shù)據(jù)的特殊情況。在研究一組數(shù)據(jù)的特征時(shí),不但要了解其典型情況,而且還要了解其特殊情況,前面的例子中A組數(shù)據(jù)和B組數(shù)據(jù)的集中量相同,但其離散量肯定是不同的,只有同時(shí)了解了這兩組數(shù)據(jù)的集中量和離散量,才能更為透徹地了解這兩組數(shù)據(jù)之間的差別。常用的表示數(shù)據(jù)離散趨勢(shì)的統(tǒng)計(jì)指標(biāo)有全距、四分位區(qū)間距、平均差、方差和標(biāo)準(zhǔn)差3。
全距
全距是說明數(shù)據(jù)離散程度的最簡(jiǎn)單的統(tǒng)計(jì)量。把一組數(shù)據(jù)按從小到大的順序排列,用最高分減去最低分,所得的值就是全距,即最高分和最低分之問的距離。上面A組數(shù)據(jù)的全距為 ;B組數(shù)據(jù)的全距為
。全距小,說明數(shù)據(jù)的分布相對(duì)集中;全距大,說明數(shù)據(jù)的分布較為分散。全距的優(yōu)點(diǎn)是計(jì)算方法簡(jiǎn)單,而且也容易理解。缺點(diǎn)是由于它只考慮到兩端的數(shù)值,沒有考慮中間數(shù)值的差異情況,描述數(shù)據(jù)時(shí)不太穩(wěn)定。
四分位區(qū)間距
中位數(shù)可以用來表示一組數(shù)據(jù)分布的集中趨勢(shì)。中位數(shù)正好把一組數(shù)據(jù)一分為二。如果把中位數(shù)左側(cè)和右側(cè)的分布再各分成兩個(gè)部分,得到的是四個(gè)相等的分位。這組數(shù)據(jù)的第一個(gè)四分位(即25%的位置)的值正好處于數(shù)據(jù)分布的四分之一處,中位數(shù)正好是第二個(gè)四分位的值,第三個(gè)四分位的值剛好位于該組數(shù)據(jù)分布的四分之三處。把第三個(gè)四分位的值減去第一個(gè)四分位的值,所得到的值叫做四分位區(qū)間距(inter-quartile range,IQR),統(tǒng)計(jì)學(xué)上也用這種方法來表示數(shù)據(jù)的離散情況。如上面A組數(shù)據(jù)的四分位區(qū)間距為 ;B組數(shù)據(jù)的四分位區(qū)間距為
。除了四分位區(qū)間距,統(tǒng)計(jì)學(xué)上還有十分位區(qū)間距和百分位區(qū)間距,它們的區(qū)分方法相同,十分位則將數(shù)據(jù)由大到小或由小到大排序后,用9個(gè)點(diǎn)將全部數(shù)據(jù)分為十等份,與9個(gè)點(diǎn)位置上相對(duì)應(yīng)的變量稱為十分位數(shù)(deciles),分別記為
,表示10%的數(shù)據(jù)落在D1下,20%的數(shù)據(jù)落在D2下……100%的數(shù)據(jù)落在D9下。百分位區(qū)間距與十分位區(qū)間距同例,只是將數(shù)據(jù)分成100等份,于99個(gè)分割點(diǎn)位置上相對(duì)應(yīng)的變量稱為百分位數(shù)(Percentiles),分別記為P1,P2,…,P99,表示1%的數(shù)據(jù)落在P1下……99%的數(shù)據(jù)落在P99下3。
平均差
與全距相比,四分位區(qū)間距在表述數(shù)據(jù)的離散情況時(shí)稍微好一些,但由于它沒有把所有的數(shù)據(jù)都考慮在內(nèi),其穩(wěn)定性會(huì)差一些。比如說,我們得到兩組數(shù)據(jù),這兩組數(shù)據(jù)的值并不完全一樣,但最后得到的四分位區(qū)間距的值則可能完全一致,這便是用四分位區(qū)問距來表示數(shù)據(jù)分布的不足之處。理想的辦法是把全部數(shù)據(jù)都考慮在內(nèi)來計(jì)算分布程度。理由很簡(jiǎn)單:平均數(shù)代表一組數(shù)據(jù)的集中趨勢(shì),我們把一組數(shù)據(jù)中的每個(gè)數(shù)據(jù)與平均數(shù)相比較就可以得知每個(gè)數(shù)據(jù)與平均數(shù)偏離的程度,或者說與平均數(shù)差異的情況。如果把這組數(shù)據(jù)中每個(gè)數(shù)據(jù)與平均數(shù)差異的情況相加起來,那么所有數(shù)據(jù)的差異情況便一目了然。把這個(gè)值除以數(shù)據(jù)的個(gè)數(shù),所得的值叫做平均差。其計(jì)算公式為:
平均差=
其中,=每個(gè)數(shù)據(jù)的值;
=總體平均數(shù);
=觀測(cè)的數(shù)據(jù)個(gè)數(shù)。
從上式可知,平均差是數(shù)據(jù)分布中所有原始數(shù)據(jù)與平均數(shù)距離的絕對(duì)值的平均。用絕對(duì)值是為了不出現(xiàn)負(fù)數(shù)。由于平均差是根據(jù)分布中每一個(gè)觀測(cè)值計(jì)算求得的,它較好地代表了數(shù)據(jù)分布的離散程度。然而,由于平均差的計(jì)算要求絕對(duì)值,不利于進(jìn)一步的統(tǒng)計(jì)分析,故在統(tǒng)計(jì)實(shí)踐中平均差不常使用。
方差與標(biāo)準(zhǔn)差
根據(jù)上面的公式,如果不求每個(gè)原始數(shù)據(jù)與平均數(shù)之差的絕對(duì)
平均值,而是求它們之間的平方,這樣就不會(huì)有負(fù)數(shù)出現(xiàn)了。然后再把每個(gè)原始數(shù)據(jù)與平均數(shù)之差的平方的值加起來,得到的是每個(gè)原始數(shù)據(jù)與平均數(shù)之差的平方和:。用這個(gè)平方和再除以所觀測(cè)到的數(shù)據(jù)的個(gè)數(shù),得到的值被稱作方差。用公式表示為:
由于方差的值相對(duì)來說比較大,一般情況下人們使用標(biāo)準(zhǔn)差來代表數(shù)據(jù)的離散程度。標(biāo)準(zhǔn)差就是方差的平方根,其計(jì)算公式為:
標(biāo)準(zhǔn)差與方差的概念易于理解,它們實(shí)際上都是一個(gè)差異量數(shù):標(biāo)準(zhǔn)差的平方就是方差,或方差的平方根就等于標(biāo)準(zhǔn)差,二者都反映了一組數(shù)據(jù)圍繞平均數(shù)分布的情況。標(biāo)準(zhǔn)差的值越大,表明這組數(shù)據(jù)的離散程度也越大,即數(shù)據(jù)越參差不齊,分布范圍越廣;標(biāo)準(zhǔn)差的值越小,表明這組數(shù)據(jù)的離散程度越小,即數(shù)據(jù)越集中、整齊,分布范圍越小。當(dāng)數(shù)據(jù)完全沒有差異時(shí),所有數(shù)值都與平均數(shù)相等,這時(shí)標(biāo)準(zhǔn)差或方差等于零。
有一點(diǎn)需要說明:在上述公式中我們用N作為除數(shù),所得結(jié)果并不是十分準(zhǔn)確的。這是因?yàn)樵谝话闱闆r下,總體參數(shù)是未知的,只能用樣本統(tǒng)計(jì)量作估計(jì)值,譬如用樣本標(biāo)準(zhǔn)差(S)作為總體標(biāo)準(zhǔn)差()的估計(jì)值??梢宰C明,在公式中用N作為除數(shù)時(shí)(尤其是當(dāng)N很小時(shí)),所得出的作為總體標(biāo)準(zhǔn)差估計(jì)值的樣本標(biāo)準(zhǔn)差是有偏差的,而
作除數(shù)時(shí),所得標(biāo)準(zhǔn)差則是無偏差的。因此,比較穩(wěn)妥的做法是用
作除數(shù)。當(dāng)然,當(dāng)N比較大時(shí),用N或
作除數(shù),所得結(jié)果差別不大3。