資源描述:
《應(yīng)用多元統(tǒng)計分析聚類分析.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第五章聚類分析第一節(jié)引言第二節(jié)相似性的量度第三節(jié)系統(tǒng)聚類分析法第四節(jié)K均值聚類分析第一節(jié)引言“物以類聚,人以群分”。對事物進行分類,是人們認識事物的出發(fā)點,也是人們認識世界的一種重要方法。因此,分類學已成為人們認識世界的一門基礎(chǔ)科學。在生物、經(jīng)濟、社會、人口等領(lǐng)域的研究中,存在著大量量化分類研究。例如:在生物學中,為了研究生物的演變,生物學家需要根據(jù)各種生物不同的特征對生物進行分類。在經(jīng)濟研究中,為了研究不同地區(qū)城鎮(zhèn)居民生活中的收入和消費情況,往往需要劃分不同的類型去研究。在地質(zhì)學中,為了研究礦物勘探,需要根據(jù)各種礦石的化學和物理性質(zhì)和所含化學成分
2、把它們歸于不同的礦石類。在人口學研究中,需要構(gòu)造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規(guī)律。但歷史上這些分類方法多半是人們主要依靠經(jīng)驗作定性分類,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系;特別是對于多因素、多指標的分類問題,定性分類的準確性不好把握。為了克服定性分類存在的不足,人們把數(shù)學方法引入分類中,形成了數(shù)值分類學。后來隨著多元統(tǒng)計分析的發(fā)展,從數(shù)值分類學中逐漸分離出了聚類分析方法。隨著計算機技術(shù)的不斷發(fā)展,利用數(shù)學方法研究分類不僅非常必要而且完全可能,因此近年來,聚類分析的理論和應(yīng)用得
3、到了迅速的發(fā)展。聚類分析就是分析如何對樣品(或變量)進行量化分類的問題。通常聚類分析分為Q型聚類和R型聚類。Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。第二節(jié)相似性的量度一樣品相似性的度量二變量相似性的度量一、樣品相似性的度量在聚類之前,要首先分析樣品間的相似性。Q型聚類分析,常用距離來測度樣品之間的相似程度。每個樣品有p個指標(變量)從不同方面描述其性質(zhì),形成一個p維的向量。如果把n個樣品看成p維空間中的n個點,則兩個樣品間相似程度就可用p維空間中的兩點距離公式來度量。兩點距離公式可以從不同角度進行定義,令dij表示樣品Xi與Xj
4、的距離,存在以下的距離公式:1.明考夫斯基距離(5.1)明考夫斯基距離簡稱明氏距離,按的取值不同又可分成:歐氏距離是常用的距離,大家都比較熟悉,但是前面已經(jīng)提到,在解決多元數(shù)據(jù)的分析問題時,歐氏距離就顯示出了它的不足之處。一是它沒有考慮到總體的變異對“距離”遠近的影響,顯然一個變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對多元數(shù)據(jù)的處理是不利的。為了克服這方面的不足,可用“馬氏距離”的概念。2.馬氏距離設(shè)Xi與Xj是來自均值向量為?,協(xié)方差為∑=(>0)的總體G中的p維樣品,則兩個樣品間的馬氏
5、距離為(5.5)馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是它考慮了觀測變量之間的相關(guān)性。如果各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標的標準差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。馬氏距離還考慮了觀測變量之間的變異性,不再受各指標量綱的影響。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。3.蘭氏距離(5.6)它僅適用于一切Xij>0的情況,這個距離也可以克服各個指標之間量綱的影響。這是一個自身標準化的量,由于它對大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù)。雖然這個距離有助于克服明氏距離的第一
6、個缺點,但它也沒有考慮指標之間的相關(guān)性。4.距離選擇的原則一般說來,同一批數(shù)據(jù)采用不同的距離公式,會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的距離公式的側(cè)重點和實際意義都有不同。因此我們在進行聚類分析時,應(yīng)注意距離公式的選擇。通常選擇距離公式應(yīng)注意遵循以下的基本原則:(1)要考慮所選擇的距離公式在實際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據(jù)的預處理和將要采用的聚類分析方法。如在進行聚類分析之前已經(jīng)對變量作了標準化處理,則通常就可采用歐氏距離。(3)要考慮研究
7、對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結(jié)果進行對比分析,以確定最合適的距離測度方法。二、變量相似性的度量多元數(shù)據(jù)中的變量表現(xiàn)為向量形式,在幾何上可用多維空間中的一個有向線段表示。在對多元數(shù)據(jù)進行分析時,相對于數(shù)據(jù)的大小,我們更多地對變量的變化趨勢或方向感興趣。因此,變量間的相似性,我們可以從它們的方向趨同性或“相關(guān)性”進行考察,從而得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。1、夾角
8、余弦兩變量Xi與Xj看作p維空間的兩個向量,這兩個向量間的夾角余弦可用下式進行計算(5.7)顯然,∣cos?ij∣?1。2