資源描述:
《主成分分析說課講解.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、主成分分析Principalcomponentanalysis主成分分析的基本思想主成分的計算主成分分析的應(yīng)用主成分分析的基本思想主成分分析就是把原有的多個指標轉(zhuǎn)化成少數(shù)幾個代表性較好的綜合指標,這少數(shù)幾個指標能夠反映原來指標大部分的信息(85%以上),并且各個指標之間保持獨立,避免出現(xiàn)重疊信息。主成分分析主要起著降維和簡化數(shù)據(jù)結(jié)構(gòu)的作用?!?基本思想主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進行簡化分析的方法。在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標,這些指標能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度
2、上存在信息的重疊,具有一定的相關(guān)性。主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。基于相關(guān)系數(shù)矩陣/協(xié)方差矩陣做主成分分析?選擇幾個主成分?如何解釋主成分所包含的實際意義?在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:§2數(shù)學(xué)模型與幾何解釋假設(shè)我們所討論
3、的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標的問題,轉(zhuǎn)變?yōu)橛懻搈個新的指標F1,F(xiàn)2,…,F(xiàn)m(m
4、?主成分分析的幾何解釋旋轉(zhuǎn)坐標軸?旋轉(zhuǎn)變換的目的是為了使得n個樣本點在F1軸方向上的離散程度最大,即F1的方差最大,變量F1代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟問題時,即使不考慮變量F2也損失不多的信息。F1與F2除起了濃縮作用外,還具有不相關(guān)性。F1稱為第一主成分,F(xiàn)2稱為第二主成分。主成分的計算先討論二維情形求第一主成分F1和F2。我們已經(jīng)把主成分F1和F2的坐標原點放在平均值所在處,從而使得F1和F2成為中心化的變量,即F1和F2的樣本均值都為零。因此F1可以表示為關(guān)鍵是,尋找合適的單位向量,使F1的方差最大。問題的答案是:X的協(xié)方
5、差矩陣S的最大特征根所對應(yīng)的單位特征向量即為。并且就是F1的方差。同樣,F(xiàn)2可以表示為尋找合適的單位向量,使F2與F1獨立,且使F2的方差(除F1之外)最大。問題的答案是:X的協(xié)方差矩陣S的第二大特征根所對應(yīng)的單位特征向量即為。并且就是F2的方差。其中,aij稱為因子載荷量因子載荷量:主成分與變量間的相關(guān)系數(shù),即:因子載荷量的大小和它前面的正負號直接反映了主成分與相應(yīng)變量之間關(guān)系的密切程度和方向。從而可以說明各主成分的意義求解主成分的步驟:1.求樣本均值和樣本協(xié)方差矩陣S;2.求S的特征根求解特征方程,其中I是單位矩陣,解得2個特征根3.求特征
6、根所對應(yīng)的單位特征向量4.寫出主成分的表達式身高x1(cm)胸圍x2(cm)體重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例1下表是10位學(xué)生的身高、胸圍、體重的數(shù)據(jù)。對此進行主成分分析。1.求樣本均值和樣本協(xié)方差矩陣2.求解協(xié)方差矩陣的特征方程3.解得三個特征值和對應(yīng)的單位特征向量:4.由此我們可以寫出三個主成分的表
7、達式:5.主成分的含義F1表示學(xué)生身材大小。F2反映學(xué)生的體形特征三個主成分的方差貢獻率分別為:前兩個主成分的累積方差貢獻率為:在一般情況下,設(shè)有n個樣品,每個樣品觀測p個指標,將原始數(shù)據(jù)排成如下矩陣:多指標求解主成分的步驟:求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I是單位矩陣,解得p個特征根3.求所對應(yīng)的單位特征向量解得4.寫出主成分的表達式根據(jù)累積貢獻率的大小取前面m個(m
8、成分分別為第一主成分的貢獻率為R型分析為消除量綱影響,在計算之前先將原始數(shù)據(jù)標準化。標準化變量的S=R,所以用標準化變量進行主成分分析相當于從原變量的