資源描述:
《主成分分析中的信息損失及其效率估計》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第18卷第3期統(tǒng)計與信息論壇Vol.18No.32003年5月May,2003【研究生論壇】主成分分析中的信息損失及其效率估計王璐,包革軍,王雪峰(哈爾濱工業(yè)大學數(shù)學系,黑龍江哈爾濱150001)摘要:首先闡明了主成分分析中信息損失的不可避免性,接著提出了對主成分進行效率統(tǒng)計的概念,并構(gòu)造了效率統(tǒng)計量,最后模擬了該統(tǒng)計量的分布,得到了一般性的結(jié)論。關(guān)鍵詞:主成分分析;信息損失;效率統(tǒng)計中圖分類號:O212.4文獻標識碼:A文章編號:1007-3116(2003)03-0055-03射。目前主成分分析已得到了廣泛
2、的認同,普遍的一、主成分中信息損失的不可避免性應用于社會經(jīng)濟各個領(lǐng)域,形成了一套比較成熟的[2]主成分分析是常用的多元統(tǒng)計數(shù)據(jù)分析方法之方法步驟。但是采用主成分方法,也經(jīng)常會出現(xiàn)一,它就是設(shè)法將原來眾多具有一定相關(guān)性的指標結(jié)果同實際相差較遠的情況,這說明用主成分分析重新組合成一組新的互相無關(guān)的綜合指標,同時根得到的結(jié)果并不能完全反映出原始變量(指標)的信據(jù)實際需要從中選取較少的幾個綜合指標盡可能多息,在處理過程中有大量信息的丟失,導致事實的扭[1]的反映原有指標的信息。從空間的角度看,就是曲。針對這種情況,本文
3、首先分析了在主成分一般建立由p個指標組成的高維空間到低維空間的映步驟下,可能會出現(xiàn)的信息損失。表1主成分方法中的信息損失基本步驟可能出現(xiàn)的問題[3][4]1指標的選擇指標代表性和全面性的矛盾由于幾何的相似變換而改變了原有的數(shù)據(jù)結(jié)構(gòu),改變了變量的變異信息,丟失了部分2原始指標數(shù)據(jù)的標準化[5][6][7]信息[8][9]求相關(guān)系數(shù)矩陣及其特征根、對存在非線性關(guān)系的數(shù)據(jù)(包括成分數(shù)據(jù))進行線性處理,損失了部分信息3特征向量[7][10][11]相關(guān)矩陣特征向量的方向問題根據(jù)累積貢獻率確定主成分的[8][12]4降維
4、,用較少的新變量替代較多的原變量,損失部分原始信息個數(shù)信息權(quán)在合成主成分和綜合評價值的兩次賦權(quán)造成對樣本差異的二次放大,并且指5合成主成分得到綜合評價值[13][14]標間存在重要性的差異從表1可以看到:在進行主成分分析時,每一步分分析的核心仍是降維的思想,那么在從高維到低都可能存在或多或少的信息損失,這樣得到的結(jié)果維的映射中必然伴隨著信息的損失。所以,在主成就直接影響了對事實結(jié)論的評判。雖然對這些可能分分析中信息損失是不可避免的,只是信息損失量出現(xiàn)的問題已經(jīng)有了許多行之有效的處理辦法,但大小的差別而已。仍不能
5、從根本上解決信息損失問題。這是因為主成收稿日期:2002-09-29作者簡介:王璐(1979-),男,四川樂山人,碩士生。研究方向:經(jīng)濟數(shù)學。55統(tǒng)計與信息論壇kk-1二、主成分分析的效率估計Q0=0,若i=0∑Qi≥50%,i=0∑Qi<50%,則前k個主成分稱為核心主成分。實際中,對于一些原始變量較少、數(shù)據(jù)結(jié)構(gòu)比較核心主成分表明這些選出的前k個主成分包含簡單的問題采用主成分分析可能不是一種最好的方[11]了大部分的原始信息,則在主成分中起核心作用。法。因為這些數(shù)據(jù)在用主成分處理時降維效果一般的,核心主成分越
6、大,說明原始信息越集中在前不顯著,不能體現(xiàn)出主成分的優(yōu)點,所以效率是比較幾個核心主成分得以體現(xiàn)而不是分散于各主成分低的。上,則降維效果越好、效率越高。由此引出一個問題:如何衡量一組數(shù)據(jù)是否適k合利用主成分分析法?即數(shù)據(jù)處理結(jié)果是否有較好∑Qki=0令η=表示核心主成分占有信息量的大的降維效果,是否能較完整的反映出原始變量的信Q息等等。我們將這些都統(tǒng)稱為主成分的效率估計。小,顯然η越大,效率越高。也就是說,效率估計是用來估計一組數(shù)據(jù)采用主成當只取一個主成分時,Q1=Q,此時η=1,說明分分析處理效果程度的。估計值
7、越大,說明該組數(shù)絕大部分原始信息集中在第一主成分上,降維效果據(jù)降維效果越好、丟失信息越少、越適合采用主成分最好。分析;反之,亦反。綜合上面可知,Q、γ、η同效率統(tǒng)計量β成正比下面構(gòu)造效率統(tǒng)計量β。關(guān)系,但它們對β的影響大小不同。一般認為,Q首先,累積貢獻率Q表示選出的主成分反映全對β的影響作用最大,故稱它為主要因子;γ、η的影部變量指標信息的大小。Q越大,說明選出的主成響次之,稱它們?yōu)檎{(diào)節(jié)因子。分包含原始變量的信息越多,則效率越高;若Q越按照上面的關(guān)系β,有多種構(gòu)造方法。但經(jīng)實小,說明信息在主成分的降維過程中損
8、失的越多,則踐,我們選擇構(gòu)造統(tǒng)計量如下:3效率越低。所以累積貢獻率Q和效率統(tǒng)計量是成11β=γ+ηQ正比的。22以后可以按此公式估計原始變量(指標)主成分但是,單從累積貢獻率是無法區(qū)分出效率大小分析的效率了。例如,參考文獻[1]中163頁的例的。因為可以增加主成分的個數(shù)來提高累積貢獻題,p=8,m=3,γ=0.7143,Q=0.8956,η=率,但是降維的效果就大大降低了。可見,統(tǒng)計效