資源描述:
《主成分分析說課講解.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、主成分分析Principalcomponentanalysis主成分分析的基本思想主成分的計(jì)算主成分分析的應(yīng)用主成分分析的基本思想主成分分析就是把原有的多個(gè)指標(biāo)轉(zhuǎn)化成少數(shù)幾個(gè)代表性較好的綜合指標(biāo),這少數(shù)幾個(gè)指標(biāo)能夠反映原來指標(biāo)大部分的信息(85%以上),并且各個(gè)指標(biāo)之間保持獨(dú)立,避免出現(xiàn)重疊信息。主成分分析主要起著降維和簡化數(shù)據(jù)結(jié)構(gòu)的作用?!?基本思想主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法。在社會(huì)經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度
2、上存在信息的重疊,具有一定的相關(guān)性。主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡化,也就是說,對高維變量空間進(jìn)行降維處理。很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多?;谙嚓P(guān)系數(shù)矩陣/協(xié)方差矩陣做主成分分析?選擇幾個(gè)主成分?如何解釋主成分所包含的實(shí)際意義?在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問題是:§2數(shù)學(xué)模型與幾何解釋假設(shè)我們所討論
3、的實(shí)際問題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,…,Xp,主成分分析就是要把這p個(gè)指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻搈個(gè)新的指標(biāo)F1,F(xiàn)2,…,F(xiàn)m(m
4、?主成分分析的幾何解釋旋轉(zhuǎn)坐標(biāo)軸?旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣本點(diǎn)在F1軸方向上的離散程度最大,即F1的方差最大,變量F1代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟(jì)問題時(shí),即使不考慮變量F2也損失不多的信息。F1與F2除起了濃縮作用外,還具有不相關(guān)性。F1稱為第一主成分,F(xiàn)2稱為第二主成分。主成分的計(jì)算先討論二維情形求第一主成分F1和F2。我們已經(jīng)把主成分F1和F2的坐標(biāo)原點(diǎn)放在平均值所在處,從而使得F1和F2成為中心化的變量,即F1和F2的樣本均值都為零。因此F1可以表示為關(guān)鍵是,尋找合適的單位向量,使F1的方差最大。問題的答案是:X的協(xié)方
5、差矩陣S的最大特征根所對應(yīng)的單位特征向量即為。并且就是F1的方差。同樣,F(xiàn)2可以表示為尋找合適的單位向量,使F2與F1獨(dú)立,且使F2的方差(除F1之外)最大。問題的答案是:X的協(xié)方差矩陣S的第二大特征根所對應(yīng)的單位特征向量即為。并且就是F2的方差。其中,aij稱為因子載荷量因子載荷量:主成分與變量間的相關(guān)系數(shù),即:因子載荷量的大小和它前面的正負(fù)號(hào)直接反映了主成分與相應(yīng)變量之間關(guān)系的密切程度和方向。從而可以說明各主成分的意義求解主成分的步驟:1.求樣本均值和樣本協(xié)方差矩陣S;2.求S的特征根求解特征方程,其中I是單位矩陣,解得2個(gè)特征根3.求特征
6、根所對應(yīng)的單位特征向量4.寫出主成分的表達(dá)式身高x1(cm)胸圍x2(cm)體重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例1下表是10位學(xué)生的身高、胸圍、體重的數(shù)據(jù)。對此進(jìn)行主成分分析。1.求樣本均值和樣本協(xié)方差矩陣2.求解協(xié)方差矩陣的特征方程3.解得三個(gè)特征值和對應(yīng)的單位特征向量:4.由此我們可以寫出三個(gè)主成分的表
7、達(dá)式:5.主成分的含義F1表示學(xué)生身材大小。F2反映學(xué)生的體形特征三個(gè)主成分的方差貢獻(xiàn)率分別為:前兩個(gè)主成分的累積方差貢獻(xiàn)率為:在一般情況下,設(shè)有n個(gè)樣品,每個(gè)樣品觀測p個(gè)指標(biāo),將原始數(shù)據(jù)排成如下矩陣:多指標(biāo)求解主成分的步驟:求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I是單位矩陣,解得p個(gè)特征根3.求所對應(yīng)的單位特征向量解得4.寫出主成分的表達(dá)式根據(jù)累積貢獻(xiàn)率的大小取前面m個(gè)(m
8、成分分別為第一主成分的貢獻(xiàn)率為R型分析為消除量綱影響,在計(jì)算之前先將原始數(shù)據(jù)標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化變量的S=R,所以用標(biāo)準(zhǔn)化變量進(jìn)行主成分分析相當(dāng)于從原變量的