資源描述:
《聚類分析在SAS中的實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、聚類分析主要內(nèi)容一、概述二、聚類分析的主要方法三、聚類分析的統(tǒng)計(jì)量四、SAS解決方案概述定義聚類分析是根據(jù)“物以類聚”的道理,對樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進(jìn)行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識的情況下進(jìn)行的?;舅枷霕颖荆ɑ蜃兞浚╅g存在著相似性,根據(jù)多個(gè)觀測指標(biāo),找出能度量樣本之間相似程度的統(tǒng)計(jì)量,以其為依據(jù),把相似程度較大的樣本聚合為一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有的樣本都聚合完畢,把不同的類型一一劃分出來,形成一
2、個(gè)由小到大的分類系統(tǒng)。聚類原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大?;境绦蚴歉鶕?jù)一批樣品的多個(gè)觀測指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。具體進(jìn)行聚類時(shí),由于目的、要求不同,因而產(chǎn)生各種不同的聚類方法:由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法、動(dòng)態(tài)聚類法按樣本聚類(Q)、按指標(biāo)聚類(R)舉例對上市公司的經(jīng)營業(yè)績進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場行情,客觀地對不同商品、不同用戶及時(shí)地進(jìn)行分類。又例如當(dāng)我們對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊
3、,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。按照聚類分析分組依據(jù)的原則不同分組按照聚類分析的對象不同分組聚類分析主要方法系統(tǒng)聚類分析法動(dòng)態(tài)聚類分析法模糊聚類法圖論聚類法聚類預(yù)報(bào)法Q型聚類分析法R型聚類分析法系統(tǒng)聚類分析法在樣品距離的基礎(chǔ)上定義類與類的距離,首先將各個(gè)樣品自成一類,然后每次將具有最小距離的兩個(gè)類合并,合并后再重新計(jì)算類與類之間的距離,再并類,這個(gè)過程一直持續(xù)到所有的樣品都?xì)w為一類為止。這種聚類方法稱為系統(tǒng)聚類法。根據(jù)并類過程所做的樣品聚類過程圖稱為聚類譜系圖。動(dòng)態(tài)聚類分析法將個(gè)樣品初步分類,然后根據(jù)分
4、類函數(shù)盡可能小的原則,對初步分類進(jìn)行調(diào)整優(yōu)化,直到分類合理為止。這種分類方法一般稱為動(dòng)態(tài)聚類法,也稱為調(diào)優(yōu)法。模糊聚類分析法利用模糊數(shù)學(xué)中模糊集理論來處理分類問題,它對經(jīng)濟(jì)領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。圖論聚類法利用圖論中最小支撐樹(MST)的概念來處理分類問題,是一種獨(dú)具風(fēng)格的方法。聚類預(yù)報(bào)法利用聚類方法處理預(yù)報(bào)問題,主要是處理一些異常數(shù)據(jù),如氣象中的災(zāi)害性天氣的預(yù)報(bào),這些異常數(shù)據(jù)采用回歸分析或判別分析處理的效果不好,而聚類預(yù)報(bào)可以彌補(bǔ)回歸分析及判別分析方法之不足,是一個(gè)很值得重視的方法。Q型聚類分析法對樣本進(jìn)行分類,是具有共同特
5、點(diǎn)的樣本聚在一起,以便對不同類的樣本進(jìn)行分析。作用①綜合利用多個(gè)變量對樣品進(jìn)行分類;②分類結(jié)果直觀,聚類譜系圖清晰;③聚類結(jié)果細(xì)致、全面、合理。R型聚類分析法對變量進(jìn)行的分類處理。作用①了解變量之間,以及變量組合之間的親疏程度;②根據(jù)變量分類的結(jié)果,可以選擇最佳的變量組合進(jìn)行回歸分析或者Q型聚類分析。選擇最佳變量,即在聚合的每類變量中選出一個(gè)具有代表性的變量作為典型變量。Q型聚類的統(tǒng)計(jì)量對樣品進(jìn)行分類時(shí),通常采用距離來表示樣品之間的親疏程度。常用的距離有:(1)明氏距離(明科夫斯基Minkowski)(2)蘭氏距離(Lance和Williams)(3)馬氏距離
6、(Mahalanobis)(4)斜交空間距離聚類分析的統(tǒng)計(jì)量R型聚類的統(tǒng)計(jì)量對變量進(jìn)行聚分類析時(shí),通常采用相似系數(shù)來表示變量之間的親疏程度。常用的相似系數(shù)有:(1)夾角余弦(2)相關(guān)系數(shù)(3)指數(shù)相似系數(shù)(4)非參數(shù)方法SAS解決方案CLUSTER過程FASTCLUS過程ACECLUS過程VARCLUS過程TREE語句格式CLUSTER語句格式數(shù)據(jù)若為原始數(shù)值形式,CLUSTER過程以歐式距離為默認(rèn)的距離計(jì)算方法。PROCCLUSTERMETHOD=name;BYvariables;COPYvariable;IDvariable;RMSSTD
7、variable;VARvariables;RUN;例題1在CLUSTER語句的“METHOD=”關(guān)鍵字下,可以指定11種系統(tǒng)聚類方法。AVERAGE:類平均法CENTROID:重心法COMPLETE:最長距離法DENSITY:密度估計(jì)法EML:最大似然譜系聚類FLEXIBLE:可變類平均法MCQUITTY:可變法及McQuitty相似分析法MEDIAN:中間距離法SINGLE:最短距離法TWOSTAGE:兩階段密度估計(jì)法WARD:離差平方和法FASTCLUS語句格式研研究事先知道類別的個(gè)數(shù),但不知道這些類別當(dāng)中的具體樣本,這時(shí)采用快速聚類方法。默認(rèn)情況下,f
8、astclus過程以歐式距離作為分類的