資源描述:
《最新ClusterAnalysis聚類分析課件教學講義ppt.ppt》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、ClusterAnalysis聚類分析課件第2講聚類分析§2.1聚類分析的基本思想§2.2相似性的度量§2.3類和類的特征§2.4系統(tǒng)聚類法§2.5非系統(tǒng)聚類法簡介§2.1聚類分析的基本思想1.什么是聚類分析?所謂“類”就是相似元素的集合。聚類就是根據(jù)研究對象某一方面的相似性將其歸類,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強?;蛘呤诡悆?nèi)對象的同質(zhì)性最大化和類間對象的異質(zhì)性最大化。2.基本思想根據(jù)研究對象的多個觀測指標,具體地找出一些能夠度量各對象之間相似程度的統(tǒng)計量,然后利用統(tǒng)計量將樣品或指標進行歸類。把相似的樣品
2、或指標歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標)聚合完畢.3.常用的數(shù)據(jù)變換方法(1)中心化變換變換后數(shù)據(jù)的均值為0,而協(xié)差陣不變.(2)標準化變換變換后的數(shù)據(jù),每個變量的樣本均值為0,標準差為1,且標準化變換后的數(shù)據(jù){x*ij}與變量的量綱無關.(3)極差標準化變換變換后的數(shù)據(jù),每個變量的樣本均值為0,極差為1,變換后的數(shù)據(jù)也是無量綱的量.(4)極差正規(guī)化變換(規(guī)格化變換)變換后的數(shù)據(jù)0≤x*ij≤1;極差為1,也是無量綱的量.(5)對數(shù)變換可將具有指數(shù)特征的數(shù)據(jù)結構化為線性數(shù)據(jù)結構.二、樣品間相似性的度量:距離設
3、有n個樣品,每個樣品測有p個指標(變量),原始資料陣為:每個樣品都可以看成p維空間中的一點,n個樣品就是p維空間中的n個點第i個樣品與第j個樣品之間的距離記為1、距離公理:第i個和第j個樣品之間的距離滿足如下四個性質(zhì):2、常用距離:(1)明考夫斯基距離(Minkowskidistance)明氏距離有三種特殊形式:(1a)絕對距離(Block距離):當q=1時(1b)歐氏距離(Euclideandistance):當q=2時(1c)切比雪夫距離:當時缺點:(1)與各變量的量綱有關;(2)沒有考慮指標間的相關性;(3)沒有考慮各變量方差
4、的不同.如歐氏距離,變差大的變量在距離中的作用(貢獻)就會大,這是不合適的.合理的方法就是對各變量加權,如用1/s2作為權數(shù)可得出“統(tǒng)計距離”:當各變量的單位不同或測量值范圍相差很大時,不應直接采用明氏距離,而應先對各變量的數(shù)據(jù)作標準化處理,然后用標準化后的數(shù)據(jù)計算距離。常用的標準化處理:其中為第j個變量的樣本均值;為第j個變量的樣本方差。(2)蘭氏距離當時:克服量綱的影響未考慮指標間相關性的影響適用于變量之間互不相關的情形(3)斜交空間距離在m維空間中,為使具有相關性變量的譜系結構不發(fā)生變形,采用斜交空間距離,即在數(shù)據(jù)標準化處理
5、下,rkl為變量Xk和Xl之間的相關系數(shù)(4)馬氏距離克服量綱的影響克服指標間相關性的影響缺點:協(xié)方差矩陣難以確定三、變量間相似性的度量:相似系數(shù)相似系數(shù)(或其絕對值)越大,變量之間的相似性程度越高;反之,越低。聚類時,相似的變量歸為一類,不太相似的變量歸為不同的類。變量與的相似系數(shù)用表示,滿足以下三個條件:1、夾角余弦從向量集合的角度所定義的一種測度變量之間親疏程度的相似系數(shù)。設在n維空間的向量2、相關系數(shù)設和是第和個變量的觀測值,則二者之間的相似測度為:相關系數(shù)就是對數(shù)據(jù)作中心化或標準化處理后的夾角余弦.至此,我們可以根據(jù)所選擇
6、的距離構成樣本點間的距離表:…0…0┇┇┇┇…0§2.3類和類的特征一、類的定義:用G表示類,設G中有n個元素,dij表示元素i與j之間的距離類的定義:T為一個給定的閾值,若對于任意的i,j∈G,有dij≤T,則稱G為一個類。二、類的特征:設類G中有樣品。n為G內(nèi)的樣品數(shù)。(1)類均值(或稱為重心)(2)離差、協(xié)方差矩陣(3)類G的直徑(4)類的離差平方和對于聚類前的n個樣品,可以證明:n個樣品總離差平方和=聚成k類后各類內(nèi)離差平方之和+類間離差平方和令T為總離差平方和,Pk為分為K類的類內(nèi)離差平方之和。其中§2.4系統(tǒng)聚類法一、系
7、統(tǒng)聚類法的基本思想和步驟1.是一種其聚類過程可以用所謂的譜系結構或樹形結構來描繪的方法?!孪炔挥么_定分多少類2.基本思想:先所有的研究對象各自算作一類,將最“靠近”的兩個類首先聚類,再將這個新類和其余類中最“靠近”的類合并,每次縮小一類,直至所有的對象都合并為一類為止。系統(tǒng)聚類法的聚類原則決定于樣品間的距離(或相似系數(shù))及類間距離的定義,類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法.幾個記號:用dij表示樣品X(i)和X(j)之間的距離,當樣品間的親疏關系采用相似系數(shù)Cij時,令dij=1-
8、Cij
9、(或d2ij=1-C2i
10、j);用Dij表示類Gi和Gj間的距離.3.系統(tǒng)聚類法的基本步驟(以Q型聚類為例)二、最短距離(NearestNeighbor)1.含義:類間距離定義為兩類中距離最近樣品之間的距離。x21?x12?x22?x11?類Gp與類Gq之間的