版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-交叉表

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

概念

在統(tǒng)計學(xué)中,交叉表是矩陣格式的一種表格,顯示變量的(多變量)頻率分布。交叉表被廣泛用于調(diào)查研究,商業(yè)智能,工程和科學(xué)研究。它們提供了兩個變量之間的相互關(guān)系的基本畫面,可以幫助他們發(fā)現(xiàn)它們之間的相互作用??枴て栠d(Karl Pearson)首先在“關(guān)于應(yīng)變的理論及其關(guān)聯(lián)理論與正常相關(guān)性”中使用了交叉表。

多元統(tǒng)計學(xué)的一個關(guān)鍵問題是找到高維應(yīng)變表中包含的變量的(直接)依賴結(jié)構(gòu)。如果某些有條件的獨立性被揭示,那么甚至可以以更智能的方式來完成數(shù)據(jù)的存儲。為了做到這一點,可以使用信息理論概念,它只能從概率分布中獲得信息,這可以通過相對頻率從交叉表中容易地表示。1

舉例假設(shè)我們有兩個變量,性別(男性或女性)和手性(右或左手)。 進一步假設(shè),從非常大的人群中隨機抽取100個人,作為對手性的性別差異研究的一部分。 可以創(chuàng)建一個應(yīng)變表來顯示男性和男性,男性和左撇子,女性和右撇子以及女性和左撇子的個人數(shù)量。 這樣的應(yīng)變表如下所示。

男性,女性以及右撇子和左撇子個體的數(shù)量稱為邊際總數(shù)??傆嫞磻?yīng)急表中所代表的個人總數(shù))是右下角的數(shù)字。

這張桌子讓我們一目了然地看到,右撇子男子的比例與右撇子女性的比例大致相同。兩種比例差異的意義可以通過各種統(tǒng)計檢驗來評估,包括Pearson的卡方檢驗,G檢驗,F(xiàn)isher精確檢驗和巴納德檢驗,條件是表中的條目代表從人口我們想得出結(jié)論。如果不同列中的個體的比例在行之間變化很大(反之亦然),則我們說兩個變量之間存在偶然性。換句話說,這兩個變量不是獨立的。如果沒有偶然性,我們說這兩個變量是獨立的。

上面的例子是最簡單的交叉表,每個變量只有兩個級別的表:這被稱為2×2交叉表。原則上可以使用任何數(shù)量的行和列。也可能有兩個以上的變量,但較高階的偶然事件表難以在視覺上表示。序數(shù)變量之間或序數(shù)變量與分類變量之間的關(guān)系也可以用交叉表來表示,盡管這種做法很少見。2

交叉表的標準內(nèi)容(1)多列(歷史上,它們被設(shè)計為占用打印頁面的所有空格)。 每個行指的是群體中的特定子組(例如男性),這些列有時稱為橫幅點(并且行有時稱為存根)。

(2)通常,任一列比較,其測試列之間的差異并使用字母顯示這些結(jié)果,其使用顏色或箭頭來標識以某種方式突出的表格中的單元格(如上例所示)。

(3)一個或多個:百分比,行百分比,列百分比,索引或平均值。

(4)未加權(quán)樣本大?。从嫈?shù))。

關(guān)聯(lián)度兩個變量之間的關(guān)聯(lián)程度可以通過多個系數(shù)進行評估。 最簡單的,僅適用于2×2交叉表的情況,是由下式定義的phi系數(shù):

其中χ2按照Pearson的卡方檢驗計算,N是觀察值的總和。 φ從0(對應(yīng)于變量之間無關(guān)聯(lián))變?yōu)?或-1(完全關(guān)聯(lián)或完全不關(guān)聯(lián)),前提是它基于2×2表中的頻率數(shù)據(jù)。 然后其符號等于表的主要對角線元素的乘積的符號減去非對角元素的乘積。 當且僅當每個邊際比例等于.50(兩個對角線單元為空)時,φ取最小值-1.00或最大值1.00。

備選方案包括四方相關(guān)系數(shù)(也僅適用于2×2表),交叉系數(shù)C、Cramér's V。

C的缺點是它不達到最大值1或最小值-1;在2×2表中可達到的最大值為0.707;在4×4表中可達到的最大值為0.870。在具有更多類別的應(yīng)急表中,它可以達到接近1的值。 因此,它不應(yīng)用于比較具有不同數(shù)目類別的表之間的關(guān)聯(lián)。此外,它不適用于不對稱表(行數(shù)和列數(shù)不相等的表)。

C和V系數(shù)的公式為:

k是行數(shù)或列數(shù),以較小者為準。

可以通過將C除以在任意數(shù)量的行和列的表中完全關(guān)聯(lián),使其最大值達到1。

四分相關(guān)系數(shù)假設(shè)每個二分法的基礎(chǔ)變量是正態(tài)分布的。四分相關(guān)系數(shù)提供了“等級測量已經(jīng)減少到兩個類別時,相關(guān)性的便利度量?!彼姆治幌嚓P(guān)不應(yīng)與通過分配計算的皮爾遜積矩相關(guān)系數(shù)相混淆 ,例如,值0和1表示每個變量的兩個級別(在數(shù)學(xué)上等于phi系數(shù))。 涉及多于兩個等級變量的四方相關(guān)性的擴展是多相關(guān)系數(shù)。

λ系數(shù)是當標稱水平測量變量時交叉表的關(guān)聯(lián)強度的度量。 值范圍從0(無關(guān)聯(lián))到1(理論最大可能關(guān)聯(lián))。 不對稱lambda測量因變量預(yù)測的百分比改善。 對稱λ測量兩個方向進行預(yù)測時的百分比改善。

不確定系數(shù)是名義水平上變量的另一個測量。3

交叉報表交叉報表是報表當中常見的類型,屬于基本的報表,是行、列方向都有分組的報表。這里牽涉到另外一個概念即分組報表。這是所有報表當中最普通,最常見的報表類型,也是所有報表工具都支持的一種報表格式。從一般概念上來講,分組報表就是只有縱向的分組。傳統(tǒng)的分組報表制作方式是把報表劃分為條帶狀,用戶根據(jù)一個數(shù)據(jù)綁定向?qū)е付ǚ纸M,匯總字段,生成標準的分組報表。