補充材料一 主成分分析

補充材料一 主成分分析

ID:28383023

大?。?20.04 KB

頁數(shù):11頁

時間:2018-12-09

補充材料一 主成分分析_第1頁
補充材料一 主成分分析_第2頁
補充材料一 主成分分析_第3頁
補充材料一 主成分分析_第4頁
補充材料一 主成分分析_第5頁
資源描述:

《補充材料一 主成分分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、補充材料一:主成分分析1.1引言多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。主成分分析(principalcomponentsanalysis,簡稱PCA)也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,

2、從這些指標中盡可能快地提取信息。當?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標相差不多時為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,可以得到一個更低維的隨機向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。我們知道,當一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))提供的信息量是非常有限的,當這個變量取一系列不同數(shù)據(jù)時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說明它對

3、各種場景的“遍歷性”越強,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指標的變異性,用標準差或方差表示它。在多變量的情況下,變量的變異性用協(xié)方差矩陣來表示。1.2主成分的幾何意義及數(shù)學推導(dǎo)設(shè)為m維隨機向量,且二階矩存在,稱為的期望向量,稱矩陣為的協(xié)方差矩陣,其元素為與的協(xié)方差,為的方差。由概率論的知識可知協(xié)方差矩陣是一個半正定的對稱矩陣。下面的引理來自于線性代數(shù):引理1:設(shè)為一個階對稱陣,則(1)必有個實的特征值;(2)的不同特征值對應(yīng)的特征向量必正交;(3)必可對角化,且存在正交陣,使得其中,的個列向量恰為的個正交的特征向量。為了

4、說清楚主成分分析的思想方法,我們先回顧一下求二次型的標準型問題。設(shè)為一個階二次型,其中為一個階對稱陣,如果做正交變換,那么特別地,當,且為正定陣時,方程表示平面上的一個橢圓,只不過,主軸與坐標軸不平行,但在新坐標軸下,橢圓方程變成了,主軸與坐標軸是平行的,如下圖:圖1主成分的幾何意義正交變換,在幾何上就是作一個坐標旋轉(zhuǎn)或者反射。由上圖可知,同樣一個橢圓,在不同的坐標系下表達方式是不一樣的,在下要簡單得多,也便于研究,與就是橢圓的兩個主軸,且均為與的線性組合。以上我們只是對階二次型的一個特例進行了簡單的分析,一般地對階二次型可以進行同樣的分析,由線性

5、代數(shù)的知識可知以下結(jié)論:引理2:設(shè)為一個階對稱陣,為對應(yīng)的二次型,利用引理1中的正交陣做正交變換,則有其中為的個特征值;,且;由前知,m維隨機向量的協(xié)方差矩陣為對稱半正定的,如果設(shè)為的特征值,那么由引理2知存在正交陣,使得,此時令m維隨機向量,可得的協(xié)方差矩陣為由此可知本節(jié)主要結(jié)論如下:定理1:設(shè)為m維隨機向量,且二階矩存在,則必存在的線性組合;使得(1),為相互正交的單位長向量;(2)與互不相關(guān)(),且;(3);(4)與的相關(guān)系數(shù)為,并稱之為因子負(載)荷量,且滿足。今后,我們稱為第一主成分,稱為第二主成分,依此類推。主成分分析把個原始變量的總方

6、差分解成了個互不相關(guān)的變量的方差之和。主成分分析的目的是減少變量的個數(shù),所以一般不會使用所有個主成分的,忽略一些帶有較小方差的主成分將不會給總方差帶來太大的影響。這里我們稱為第個主成分的貢獻率。第一主成分的貢獻率最大,這表明綜合原始變量的能力最強,而的綜合能力依次遞減。若只取前個主成分,則稱為主成分的累計貢獻率,累計貢獻率表明綜合的能力。通常取,使得累計貢獻率達到一個較高的百分數(shù)(如85%以上)。1.3實際應(yīng)用中主成分分析的出發(fā)點及綜合評價我們前面討論的主成分計算是從協(xié)方差矩陣出發(fā)的,其結(jié)果受變量單位的影響。不同的變量往往有不同的單位,對同一變量單

7、位的改變會產(chǎn)生不同的主成分,主成分傾向于多歸納方差大的變量的信息,對于方差小的變量就可能體現(xiàn)得不夠,也存在“大數(shù)吃小數(shù)”的問題。為使主成分分析能夠均等地對待每一個原始變量,消除由于單位的不同可能帶來的影響,我們常常將各原始變量作標準化處理,即令顯然,的協(xié)方差矩陣就是的相關(guān)系數(shù)矩陣。同樣地相關(guān)系數(shù)矩陣也是一個半正定的對稱陣,于是上述對協(xié)方差陣所進行的主成分分析可以一模一樣地對相關(guān)系數(shù)矩陣進行。但是,從相關(guān)陣求得的主成分與從協(xié)差陣求得的主成分一般情況是不相同的。實際表明,這種差異有時很大。我們認為,如果各指標之間的數(shù)量級相差懸殊,特別是各指標有不同的物

8、理量綱的話,較為合理的做法是使用相關(guān)系數(shù)矩陣進行主成分分析。對于研究經(jīng)濟問題所涉及的變量單位大都不統(tǒng)一,采用相關(guān)系數(shù)矩陣后

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。