資源描述:
《多元統(tǒng)計分析 第6章(聚類分析)new》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第六章聚類分析“物以類聚,人以群分”1聚類分析的實(shí)際案例老師要了解學(xué)生數(shù)學(xué)知識的掌握情況,該如何做?將學(xué)生分類,每類考試分析試卷給予相應(yīng)的輔導(dǎo)2判別分析:對總體的信息有一定的了解,比如知道一些訓(xùn)練樣本的情況.聚類分析:沒有總體的信息,也不知道應(yīng)該分成幾類.3§6.1引言§6.2距離與相似系數(shù)§6.3系統(tǒng)聚類法§6.4動態(tài)聚類法§6.5有序樣品聚類法§6.6變量聚類法4利用SAS幫助系統(tǒng)找到聚類分析方法的使用說明和例子的路徑:聚類分析方法的幫助路徑:幫助(H)→SAS幫助和文檔(H)→SAS產(chǎn)品→SAS/stat→SAS/statUser’s
2、Guide→IntroductiontoClusteringProcedures5§6.1引言聚類分析要解決的問題:事先不知道所研究的問題應(yīng)分為幾類,更不知道觀測到的個體的具體分類情況,我們的目的正是需要通過對觀測數(shù)據(jù)所進(jìn)行的分析處理,選定一種度量個體接近程度的統(tǒng)計量、確定分類數(shù)目、建立一種分類方法,并按親近程度對觀測對象給出合理的分類.6(系統(tǒng))聚類分析的關(guān)鍵步驟:1.指標(biāo)的選取2.樣品之間距離的刻畫3.類與類之間距離的刻畫4.確定最終的分類個數(shù)7聚類對觀測聚類對變量聚類(Q型聚類分析)(R型聚類分析)VARCLUS過程系統(tǒng)聚類法動態(tài)聚類
3、法CLUSTER過程FASTCLUS過程8R型聚類分析的目的:(1)對變量進(jìn)行分類;(2)可以了解變量間及變量組合間的親疏關(guān)系;(3)根據(jù)分類結(jié)果及它們之間的關(guān)系,在每一類中選擇有代表性的變量作為重要變量,利用少數(shù)幾個重要變量進(jìn)一步作分析計算,如進(jìn)行回歸分析、判別分析或Q型聚類分析.9Q型聚類分析的目的:(1)對觀測進(jìn)行分類;(2)找出每類的特點(diǎn)以指導(dǎo)具體的實(shí)際工作.10§6.2距離與相似系數(shù)描述觀測(變量)的親疏關(guān)系的常用量有:1.距離2.相似系數(shù).11變量分類(Stevens):變量定性變量定量變量名義變量有序變量區(qū)間變量比例變量12樣
4、一、樣品間的距離和相似系數(shù)本與n個觀測看成m維空間中的n個點(diǎn),用d表ij樣示樣品X和X之間的距離,要求:(i)(j)品(1)d≥0,對一切i,j;ij當(dāng)d=0?X=X;ij(i)(j)(2)d=d,對一切i,j;ijji(3)d≤d+d,對一切i,j,k.ijikkj131.閩科夫斯基(Minkowski)距離1?mq?qdij(q)=?∑xit?xjt??t=1?(i,j=1,2,?,n)14(1)絕對值距離當(dāng)q=1時的一階Minkowski度量mdij(1)=∑xit?xjt(i,j=1,2,?,n)t=115(2)歐氏距離當(dāng)q=2時的
5、二階Minkowski度量m2dij(1)=∑xit?xjt(i,j=1,2,?,n)t=116(3)切比雪夫距離d(∞)=maxx?x(i,j=1,2,?,n)ijitjt1≤t≤m172.蘭氏距離(要求x>0,LanceandWilliams)ij1mx?xitjtdij(L)=∑mt=1xit+xjt(i,j=1,2,?,n)特點(diǎn):(1)一個無量綱的量(2)對大的奇異值不敏感183.馬氏距離(Mahalanobis)()′?1()d(M)=X?XSX?Xij(i)(j)(i)(j)(i,j=1,2,?,n)其中:S為樣本協(xié)差陣.特點(diǎn):
6、(1)考慮了變量之間的相關(guān)性(2)一個無量綱的量(3)所有觀測用同一個協(xié)差陣S效果不好,使用不便194.斜交空間距離1?1mm?2dij=?2∑∑(xik?xjk)(xil?xjl)rkl??mk==11l?(i,j=1,2,?,n)其中r為變量X和X之間的相關(guān)系數(shù).klkl20二、變量間的相似系數(shù)和距離設(shè)C表示變量X和X之間的相似系ijij數(shù),要求:(1)C=±1?X=aX(a≠0,常數(shù));ijij(2)C≤1,對一切i,j;ij(3)C=C,對一切i,j.ijjiC越接近1,則表示X和X的關(guān)系越密切,ijij越接近0,兩者關(guān)系越疏遠(yuǎn).2
7、11.夾角余弦n∑xtixtj[]t=1C(1)=cosα=ijijnn22∑xti∑xtjt=1t=1(i,j=1,2,?,m)222.相關(guān)系數(shù)n∑(xti?xi)(xtj?xj)t=1C(2)=ijnn22∑(xti?xi)∑(xtj?xj)t=1t=1(i,j=1,2,?,m)相關(guān)系數(shù)就是對數(shù)據(jù)作標(biāo)準(zhǔn)化處理后的夾角余弦.233.變量間的距離(1)利用相似系數(shù)來定義變量間的距離d=1?Cijij22或d=1?Cijij(i,j=1,2,?,m)24(2)利用樣本協(xié)差陣來定義變量間的距離d=s+s?2sijiijjij(i,j=1,2,?
8、,m)其中樣本協(xié)差陣S=(s)>0.ij(3)利用前面定義樣品的距離公式來定義變量間的距離254.特殊定性變量間的距離定義的一個例子案例1歐洲各國的語言有許多相似之處,有的十分相