資源描述:
《主成分分析(pca)入門》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、神經(jīng)網(wǎng)絡(luò)方法課程報告吳強(qiáng)200820901021淺析主成分分析方法簡介成分分析(PCA)是現(xiàn)代數(shù)據(jù)分析方法的支柱,它就像一個黑箱被廣泛地運(yùn)用在各個領(lǐng)域,在本文中本人將談?wù)剬χ鞒煞址治龅恼J(rèn)識,對PCA數(shù)據(jù)壓縮,去噪的應(yīng)用的理解,以及PCA局限性和其在腦電分類問題的實際應(yīng)用中的問題,最后簡單分析了在EEG/fMRI同步采集信號時利用PCA去噪可能存在的問題?虛擬實驗例子這里我首先舉一個主成分分析的虛擬實驗作為例子,以便能更好地,更直觀地理解PCA?虛擬實驗?zāi)P腿缦聢D所示,下圖中的紅球的運(yùn)動是我們要考察或者說是觀測的對象,而
2、紅球被通過一個彈簧連接到固定的墻上,紅球做沿彈簧徑向的反復(fù)震動,下圖中就是X軸方向,當(dāng)然由于各種外界因素的干擾影響,如摩擦,碰撞,彈簧的非理想結(jié)構(gòu),使得紅球的運(yùn)動方向除了沿彈簧徑向方向外還有在其他方向具有不確定性的運(yùn)動?為了觀測紅球的運(yùn)動,虛擬實驗中設(shè)計了三個攝像頭A/B/C,從不同角度來記錄紅球的運(yùn)動,而虛擬實驗的目的就是通過三個攝像頭A/B/C的觀測數(shù)據(jù)找出紅球的最主要的運(yùn)動方向,即沿彈簧徑向的運(yùn)動的X軸方向?這里根據(jù)應(yīng)用PCA分析的常見的實際情況,有以下假設(shè):1)攝像頭只能觀測到紅球在其二維坐標(biāo)中的坐標(biāo)位置?2)
3、假設(shè)彈簧對于攝像頭是不可見的?3)除紅球攝像頭的位置坐標(biāo),X/Y/Z坐標(biāo)系是未知的且不可直接觀測的?4)三個攝像頭A/B/C的相對位置,拍攝方向未知如果有一個問題:紅球到底是沿什么方向的彈簧驅(qū)動的?現(xiàn)在可能有人會說,紅球主要的運(yùn)動方向不是顯而易見的嗎?一眼就可以看出來!當(dāng)然由于人眼的立體視覺,如果在現(xiàn)實中重現(xiàn)該實驗確實能一眼就搞定?但是請問如果是超過三維的高維空間呢?實際上一般每個傳感器能觀測采樣到的往往是一維時間序列數(shù)據(jù),而由這樣多個傳感器采樣數(shù)據(jù)構(gòu)成的多維觀測數(shù)據(jù)矩陣,給你這樣一個矩陣你又如何能“看出”如本虛擬實驗
4、中的紅球的彈簧彈性震動的運(yùn)動方向?所以要解決這個問題,我們就可以運(yùn)用PCA分析方法?通過PCA就可以從三個攝像頭的觀測數(shù)據(jù)中分析出紅球的本征彈性震動,即沿著彈簧方向的運(yùn)動,從數(shù)學(xué)的角度說就是找到在由A/B/C三個攝像頭所記錄數(shù)據(jù)構(gòu)成的空間中,找到X軸方向的坐標(biāo)表示,即給空間中的一個向量?PCA分析方法原理PCA方法的基礎(chǔ)是方差分析,其一個最基本的假設(shè):在投影方向上觀測數(shù)據(jù)分布的方差越大,該投影方向越能體現(xiàn)數(shù)據(jù)中的主要信息?由上圖中的虛擬實驗的例子,顯然紅球在X軸方向的投影,或者說紅球位置坐標(biāo)在X軸的值的方差顯然會最大,
5、所以我們就是要通過PCA方法找到這個X軸方向?為簡化說明,以一個二維數(shù)據(jù)矩陣為例,假設(shè)X是2×M的觀測數(shù)據(jù)矩陣,M表示M個時間采樣點,每時間點上有2個采樣數(shù)據(jù),在經(jīng)過共平均參考后,假設(shè)獲得如下的散點圖分布,很顯然將每個采樣點沿圖中長黑線方向投影,其投影后的坐標(biāo)值的序列的方差是最大的,此時我們的PCA就是用來找到長黑方向的一個單位向量?以上過程可以用數(shù)學(xué)公式表示:假設(shè)單位列向量u(2×1),uTX=[uTx1,uTx2,….uTxm]uTxi是每個采樣點上的二維數(shù)據(jù)在單位向量u上的投影,由于X經(jīng)過共平均參考處理,所
6、以其均值向量μ=0,所以原始觀測數(shù)據(jù)經(jīng)單位向量u投影后的方差VAR(uTX)=∑(uTxi)2=(uTX)*(uTX)T=uTXXTu=λuTXXTu=λ兩邊左乘u得XXTu=λu,顯然u是XXT的一個特征向量,而XXT是X的協(xié)方差矩陣,λ的值的大小表示原始觀測數(shù)據(jù)經(jīng)在向量u的方向上投影值的方差的大小?從而將問題“尋找在投影方向上觀測數(shù)據(jù)分布的方差最大的方向”轉(zhuǎn)變成求原始觀測數(shù)據(jù)X的協(xié)方差矩陣特征值最大的特征向量的問題?由于特征向量計算本身所要求的正交性,以及特征向量個數(shù)小于等于空間維數(shù),所以此二維空間只有兩個特征向
7、量,而另一個特征向量,即短黑線方向的單位向量所對應(yīng)的特征值是次大的,也是最小的?而推廣到于高維空間時,正交于最大特征值對應(yīng)特征向量的空間中,可以用同樣方法,選出次大特征值λ所對應(yīng)的特征向量,將選出的特征向量張成一個新的空間,原始觀測數(shù)據(jù)投影到這個空間里時保留了原始方差較大的方向的信息,就可以認(rèn)為這樣就選出原始觀測數(shù)據(jù)的主要成分,主成分之名也因此而來?PCA的數(shù)據(jù)壓縮與去噪依然以上圖為例子,我們對原始觀測數(shù)據(jù)X在λ值最大的特征向量u上投影后,獲得一個uTX(1×M)的序列,再加上特征向量u,即將X原來的2×M個數(shù)據(jù)壓縮到
8、1×M+1×2個數(shù)據(jù),如果原始數(shù)據(jù)是更高維的,可以選擇適當(dāng)V個特征值最大的λi所對應(yīng)的特征向量此時則可以將數(shù)據(jù)由N×M個壓縮到V×M+V×N個數(shù)據(jù)?而利用PCA去噪實質(zhì)上是對PCA壓縮數(shù)據(jù)的一個還原,以下圖為例?左圖是二維原始觀測數(shù)據(jù),向?qū)υ紨?shù)據(jù)主成分方向(圖中虛線方向)投影后,獲得1維標(biāo)量序列,即uTX?此時可以看做數(shù)據(jù)壓縮過