資源描述:
《補充資料3 主成分分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、地理系統(tǒng)要素關(guān)系的主成分分析地理工作者在地理系統(tǒng)的區(qū)域構(gòu)成分析中,常常用多個指標來分析、比較各個地理區(qū)域的特征和“職能”,為地理區(qū)域類型的劃分和制定區(qū)域發(fā)展戰(zhàn)略提供依據(jù)。但由于指標多會增加分析問題的復(fù)雜性,能否通過某些線性組合,使原始變量減少為有代表意義的少數(shù)幾個新的變量,以少數(shù)幾個指標或“成分”來代表多數(shù)指標?這是對地理系統(tǒng)進行分析的關(guān)鍵問題。例如在環(huán)境研究中,需要對許多環(huán)境要素進行觀測;在土地資源研究中,需要對土壤樣品進行多指標的分析化驗。例如有30個測試指標,也許10多種指標即可代表。由此可見減少研究的要素,使系統(tǒng)簡化,是
2、地理學(xué)研究中的重要環(huán)節(jié)。事實上,如果復(fù)雜的地理系統(tǒng),不加以任何簡化,不抓住對地理系統(tǒng)影響的主要矛盾,要對之進行深入的研究,幾乎是不可能的。本章介紹解決上述問題的數(shù)學(xué)方法——主成分分析,它是原始變量的線性組合,但較原始變量更集中更典型地表明研究對象的特征。因為主成分析的數(shù)學(xué)原理比較簡單易懂,因此它在地理學(xué)研究中應(yīng)用較為廣泛。7.1主成分分析方法的原理主成分分析是把原來多個指標化為少數(shù)幾個綜合指標的一種統(tǒng)計方法。設(shè)有n個地理區(qū)域,每個地理區(qū)域測得p個指標,總共有n*p觀測數(shù)據(jù)。若n=100,p=10,則有1000個地理數(shù)據(jù),如何從這
3、么多指標的數(shù)據(jù)中抓住地理事物的內(nèi)在規(guī)律性呢?如前所述,多數(shù)情況下,指標之間存在著相關(guān)關(guān)系,這時要弄清它們的規(guī)律須在p維空間中加以考察,這是比較麻煩的。為了克服這一困難,一個自然的想法是找較少的綜合指標來代表原來較多的指標,而這些較少的綜合指標既能盡量多地反映原來較多指標的信息,它們彼此之間又是獨立的。綜合指標如何選取呢?通常是取原指標的線性組合,使綜合指標之間相互獨立且代表性最好。如果原來單項指標記為;它們的綜合指標記為。特別當p=2時,原指標是。設(shè)n個散布點大致為一個橢圓型。如圖7-1,若在橢圓長軸方向取坐標Z1,在橢圓短軸方
4、向取坐標Z2,這相當于在平面上作一個坐標變換,顯然變換后的坐標有下述性質(zhì)。圖7-1主成分分析的幾何意義(1)n個點的坐標的相關(guān)幾乎為0。(2)二維平面上n個點的波動(方差)大部分可以歸結(jié)為軸上的波動,而軸上的波動是較小的。于是稱是原指標的主成分。如果圖7-1的橢圓是相當扁平的,則可考慮方向上的波動,忽視方向的波動,不會犯很大錯誤。比如,這個橢圓的長軸方向?qū)⒄麄€信息反映了75%,那么,僅用來表達還是可以的,這樣二維就可以降為一維了,就是的綜合指標。顯然:(7-1)如果取橢圓的短軸作為第二主成分,圖上的點對原指標的值記作;對主成分的
5、值記作,則有(7-2)所謂所反映的信息,就是在整個平方和中占的比例,這個比例越大越好,即的平方和(方差)越大越好。取什么方向使它的平方和(或方差)達到極大呢?這就是主成分分析首先要解決的問題。如果有p個指標,將它們綜合成個指標,即(7-3)系數(shù)由下列原則來決定:(1)與互相無關(guān);(2)是的一切線性組合中方差最大的;是與不相關(guān)的的所有線性組合中方差最大的;…;是與都不相關(guān)的的所有線性組合中方差最大的。這樣決定的綜合指標分別稱做原指標的第一,第二,…,第m主成分。其中在總方差中占的比例最大,其余主成分的方差依次遞減。在實際工作中常挑
6、選前幾個最大的主成分,這樣既減少了指標的數(shù)目,又抓住了主要矛盾,簡化了指標之間的關(guān)系。從幾何上看,找主成分的問題,就是找出p維空間中橢球體的主軸問題,從數(shù)學(xué)上容易得到它們是的相關(guān)矩陣中m個較大特征值所對應(yīng)的特征向量。7.2主成分分析的解法下面用一個簡單的例子來說明主成分分析的解法。設(shè)有一組地理研究樣品的兩個變量。所測量的數(shù)據(jù)列于表7-1。圖7-2是表7-1數(shù)據(jù)的散布圖。表7-1中的方差的方差與的協(xié)方差(為多元回歸分析中的除以自由度)即方差--協(xié)方差矩陣為表7-1雙變量的原始數(shù)據(jù)32121041012116513668131461
7、01315721317713147891513951713981717914181910720201112圖7-2雙變量數(shù)據(jù)散布圖我們可以在同一坐標系統(tǒng)中,用向量來表示方差和協(xié)方差,如圖7-3。在軸上取,為了表示和協(xié)方差的關(guān)系,在端點作一條直線平行,使其長度等于協(xié)方差值15.6,這樣便可得到一點,將此點與坐標原點相連,得到向量I;用類似方法取,并作向量II。圖7-3方差和協(xié)方差的向量表示根據(jù)矩陣的特征值和特征向量的幾何解釋,我們可以把一個p階方陣中的元素看作是位于一個p維橢球上各點的坐標。此矩陣的特征向量給出橢球的主軸,而其對應(yīng)
8、的特征值,則表示主軸的長度。主成分分析的實質(zhì)就是要求出方差--協(xié)方差矩陣的特征向量及其對應(yīng)的特征值,即要找出方差--協(xié)方差矩陣所確定的橢球的主軸,并確定其長度。圖7-4表示方差和協(xié)方差所確定的橢圓,其長軸I為第一主成分(第一主軸),短軸II為第二主成分(第二主軸