概念
在統(tǒng)計學中,主成分回歸分析(principle component regression;PCR),以主成分為自變量進行的回歸分析。是分析多元共線性問題的一種方法。用主成分得到的回歸關(guān)系不像用原自變量建立的回歸關(guān)系那樣容易解釋。
用主成分分析法對回歸模型中的多重共線性進行消除后,將主成分變量作為自變量進行回歸分析,然后根據(jù)得分系數(shù)矩陣將原變量代回得到的新的模型。1
主成分分析主成分分析(Principal Component Analysis,PCA), 是一種統(tǒng)計方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。
在實際課題中,為了全面分析問題,往往提出很多與此有關(guān)的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。
主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個指標),重新組合成一組新的互相無關(guān)的綜合指標來代替原來的指標。
主成分分析,是考察多個變量間相關(guān)性一種多元統(tǒng)計方法,研究如何通過少數(shù)幾個主成分來揭示多個變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出少數(shù)幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān).通常數(shù)學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。
最經(jīng)典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個主成分。
概括起來說,主成分分析主要由以下幾個方面的作用。
1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m