資源描述:
《PCA入門介紹(中文)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、主元分析(PCA)理論分析及應(yīng)用什么是PCA?PCA是Principalcomponentanalysis的縮寫,中文翻譯為主元分析。它是一種對數(shù)據(jù)進行分析的技術(shù),最重要的應(yīng)用是對原有數(shù)據(jù)進行簡化。正如它的名字:主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)。它的優(yōu)點是簡單,而且無參數(shù)限制,可以方便的應(yīng)用與各個場合。因此應(yīng)用極其廣泛,從神經(jīng)科學(xué)到計算機圖形學(xué)都有它的用武之地。被譽為應(yīng)用線形代數(shù)最價值的結(jié)果之一。在以下的章節(jié)中,不僅有對PCA的比較直觀的解釋,同時也配有較為深入的分析。首先將從一個
2、簡單的例子開始說明PCA應(yīng)用的場合以及想法的由來,進行一個比較直觀的解釋;然后加入數(shù)學(xué)的嚴格推導(dǎo),引入線形代數(shù),進行問題的求解。隨后將揭示PCA與SVD(SingularValueDecomposition)之間的聯(lián)系以及如何將之應(yīng)用于真實世界。最后將分析PCA理論模型的假設(shè)條件以及針對這些條件可能進行的改進。一個簡單的模型在實驗科學(xué)中我常遇到的情況是,使用大量的變量代表可能變化的因素,例如光譜、電壓、速度等等。但是由于實驗環(huán)境和觀測手段的限制,實驗數(shù)據(jù)往往變得極其的復(fù)雜、混亂和冗余的。如何對數(shù)據(jù)進行分析,取得隱藏在數(shù)據(jù)背后的變量關(guān)系,是一個很困難的問題。在神經(jīng)科學(xué)、氣象學(xué)、海洋
3、學(xué)等等學(xué)科實驗中,假設(shè)的變量個數(shù)可能非常之多,但是真正的影響因素以及它們之間的關(guān)系可能又是非常之簡單的。下面的模型取自一個物理學(xué)中的實驗。它看上去比較簡單,但足以說明問題。如圖表Error!Bookmarknotdefined.所示。這是一個理想彈簧運動規(guī)律的測定實驗。假設(shè)球是連接在一個無質(zhì)量無摩擦的彈簧之上,從平衡位置沿軸拉開一定的距離然后釋放。圖表Error!Bookmarknotdefined.對于一個具有先驗知識的實驗者來說,這個實驗是非常容易的。球的運動只是在x軸向上發(fā)生,只需要記錄下軸向上的運動序列并加以分析即可。但是,在真實世界中,對于第一次實驗的探索者來說(這也是
4、實驗科學(xué)中最常遇到的一種情況),是不可能進行這樣的假設(shè)的。那么,一般來說,必須記錄下球的三維位置。這一點可以通過在不同角度放置三個攝像機實現(xiàn)(如圖所示),假設(shè)以的頻率拍攝畫面,就可以得到球在空間中的運動序列。但是,由于實驗的限制,這三臺攝像機的角度可能比較任意,并不是正交的。事實上,在真實世界中也并沒有所謂的軸,每個攝像機記錄下的都是一幅二維的圖像,有其自己的空間坐標系,球的空間位置是由一組二維坐標記錄的:。經(jīng)過實驗,系統(tǒng)產(chǎn)生了幾分鐘內(nèi)球的位置序列。怎樣從這些數(shù)據(jù)中得到球是沿著某個軸運動的規(guī)律呢?怎樣將實驗數(shù)據(jù)中的冗余變量剔除,化歸到這個潛在的軸上呢?這是一個真實的實驗場景,數(shù)據(jù)
5、的噪音是必須面對的因素。在這個實驗中噪音可能來自空氣、摩擦、攝像機的誤差以及非理想化的彈簧等等。噪音使數(shù)據(jù)變得混亂,掩蓋了變量間的真實關(guān)系。如何去除噪音是實驗者每天所要面對的巨大考驗。上面提出的兩個問題就是PCA方法的目標。PCA主元分析方法是解決此類問題的一個有力的武器。下文將結(jié)合以上的例子提出解決方案,逐步敘述PCA方法的思想和求解過程。線形代數(shù):基變換從線形代數(shù)的角度來看,PCA的目標就是使用另一組基去重新描述得到的數(shù)據(jù)空間。而新的基要能盡量揭示原有的數(shù)據(jù)間的關(guān)系。在這個例子中,沿著某軸上的運動是最重要的。這個維度即最重要的“主元”。PCA的目標就是找到這樣的“主元”,最大
6、程度的去除冗余和噪音的干擾。標準正交基為了引入推導(dǎo),需要將上文的數(shù)據(jù)進行明確的定義。在上面描述的實驗過程中,在每一個采樣時間點上,每個攝像機記錄了一組二維坐標,綜合三臺攝像機數(shù)據(jù),在每一個時間點上得到的位置數(shù)據(jù)對應(yīng)于一個六維列向量。如果以的頻率拍攝10分鐘,將得到個這樣的向量數(shù)據(jù)。抽象一點來說,每一個采樣點數(shù)據(jù)都是在維向量空間(此例中)內(nèi)的一個向量,這里的是牽涉的變量個數(shù)。由線形代數(shù)我們知道,在維向量空間中的每一個向量都是一組正交基的線形組合。最普通的一組正交基是標準正交基,實驗采樣的結(jié)果通常可以看作是在標準正交基下表示的。舉例來說,上例中每個攝像機記錄的數(shù)據(jù)坐標為,這樣的基便是
7、。那為什么不取或是其他任意的基呢?原因是,這樣的標準正交基反映了數(shù)據(jù)的采集方式。假設(shè)采集數(shù)據(jù)點是,一般并不會記錄(在基下),因為一般的觀測者都是習(xí)慣于取攝像機的屏幕坐標,即向上和向右的方向作為觀測的基準。也就是說,標準正交基表現(xiàn)了數(shù)據(jù)觀測的一般方式。在線形代數(shù)中,這組基表示為行列向量線形無關(guān)的單位矩陣?;儞Q從更嚴格的數(shù)學(xué)定義上來說,PCA回答的問題是:如何尋找到另一組正交基,它們是標準正交基的線性組合,而且能夠最好的表示數(shù)據(jù)集?這里提出了PCA方法的一個最關(guān)鍵的假設(shè):線性。這是