資源描述:
《[精品]聚類分析與判別分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、第一節(jié)聚類分析統(tǒng)計思想一、聚類分析的基本思想1.什么是聚類分析俗語說,物以類聚、人以群分。當(dāng)有一個分類指標(biāo)時,分類比較容易。但是當(dāng)有多個指標(biāo),要進(jìn)行分類就不是很容易了。比如,要想把中國的縣分成若干類,可以按照自然條件來分:考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);對丁-多指標(biāo)分類,由丁?不同的指標(biāo)項對重要程度或依賴關(guān)系是相互不同的,所以也不能川平均的方法,因為這樣會忽視相對重要程度的問題。所以需耍進(jìn)行多元分類,即聚類分析。最早的聚類分析是由考古學(xué)家在對考古分類中研究中發(fā)展起來的
2、,同時乂應(yīng)用于昆蟲的分類中,此后乂廣泛地應(yīng)川在天氣、生物等方面。對于一個數(shù)據(jù),人們既可以對變量(指標(biāo))進(jìn)行分類(相當(dāng)丁-對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。2.R型聚類和Q型聚類對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。聚類分析就是要找出貝有相近程度的點或類聚為一類;如何衡量這個“相近程度”?就是要根據(jù)“距離”來確定。這里的距離含義很廣,凡是滿足4個條件(后面講)的都是距離,如歐氏距離、馬氏距離…,相似系數(shù)也可看作為距離。二
3、、如何度屋距離的遠(yuǎn)近:統(tǒng)計距離和相似系數(shù)1.統(tǒng)計距離距離有點間距離好和類間距離2.常用距離統(tǒng)計距離有多種,常川的是明氏距離。3.相似系數(shù)當(dāng)對個指標(biāo)變量進(jìn)行聚類時,用和似系數(shù)來衡量變量間的關(guān)聯(lián)程度,一般地稱為變量和間的相似系數(shù)。常用的相似系數(shù)有夾角余弦、相關(guān)系數(shù)等。夾角余弦:相關(guān)系數(shù):對于分類變屋的研究對象的和似性測度,一般稱為關(guān)聯(lián)測度。第二節(jié)如何進(jìn)行聚類分析一、系統(tǒng)聚類1.系統(tǒng)聚類的基木步驟2.最短距離法3.最長距離法4.重心法和類平均法5.離差平方和法二、SPSS屮的聚類分析1、事先要確定分多少類:K均值聚類法;2、事先
4、不用確定分多少類:分層聚類;分層聚類山兩種方法:分解法和凝聚法。分層聚類的功能:即可進(jìn)行樣品的聚類,也可進(jìn)行變量的聚類。分層聚類的原理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。分層聚類的中耍進(jìn)行以卜?的選擇:數(shù)據(jù)的標(biāo)準(zhǔn)化測度方法的選擇:距離方法的選擇或和似性、關(guān)聯(lián)程度的選擇。聚類方法的選擇:即以什么方法聚類,spss中捉供了7中方法可進(jìn)行選擇。輸出圖形的選擇:樹形圖或冰柱圖。3、聚類分析要注意的問題。聚類方法的優(yōu)缺點:類平均法比較好,因為與類平均法相比,最短和重心法是“空間濃縮”,即并類的距離范圍小,區(qū)別類的靈敏度差;
5、與類平均法相比,其他方法是“空間擴張”,即并類距離范圍人,區(qū)別類的靈敏度強。最短距離比最怏距離法好聚類結(jié)果中,如果孤類點太多,則說明該中聚類方法不好。如果從減少孤類來看,一般情況下用Word's方法最好??焖倬垲惙ㄅc層次聚類法應(yīng)用區(qū)別層次聚類法的聚類過程是單方向的,一旦某個樣品(case)進(jìn)入某一類,就不可能從該類出來,再歸入其他的類。而快速聚類法受奇異值、相似測度和不合使得聚類變量的彩響較小,對于不合適的初始分類可以進(jìn)行反復(fù)調(diào)整.在聚類分析發(fā)展的早期,層次聚類法應(yīng)用普遍,其中尤以組間類平均法和離差平方和法應(yīng)用最廣。后來快
6、速聚類方法逐步被人們接受,應(yīng)用日益增多?,F(xiàn)在是兩者相結(jié)合,取長補短。首先使川層次聚類法確定分類數(shù),檢查是否有奇異值,去除奇異值后,對剩下的案例重新進(jìn)行分類,把用層次聚類法得到的各個類的重心,作為迭代法的初始分類中心,對樣木進(jìn)行重新調(diào)整。第三節(jié)判別分析一、判別分析的基木思路1.為什么判別?有-些昆蟲的性別很難看出,只有通過解剖才能夠判別;但是雄性和雌性昆蟲在若干體表度量上有些綜合的差顯。于是統(tǒng)計學(xué)家就根據(jù)已知雌雄的昆蟲體表度?量(這些用作度量的變量亦稱為預(yù)測變量)得到一個標(biāo)準(zhǔn),并且利用這個標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。這樣的
7、判別雖然不能保證百分Z百準(zhǔn)確,但至少人部分判別都是對的,而且用不著殺死昆蟲來進(jìn)行判別了。2.判別分Uf(discriminantanalysis)的含義這就是木章耍講的是判別分析。判別分析和前面的聚類分析有什么不同呢?主耍不同點就是,在聚類分析中i般人們事先并不知道或一定耍明確應(yīng)該分成兒類,完全根抓數(shù)厠來確定。而在判別分析中,至少冇一個己經(jīng)明確知道類別的“訓(xùn)練樣本”,利用這個數(shù)據(jù),就可以建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了。1.判別分析例子例10.1數(shù)據(jù)disc.sav:企圖用一套打分體系來描繪企業(yè)的
8、狀況。該體系對每個企業(yè)的一些指標(biāo)(變量)進(jìn)行評分。這些指標(biāo)包括:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、利潤增長(pit)、市場份額(ms)、市場份額增長(msr)、流動資金比例(cp)、資金周轉(zhuǎn)速度(cs)等等。另外,有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。我們希與根據(jù)