資源描述:
《spss的聚類分析》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、第六章聚類分析把對象分類—1分類俗語說,物以類聚、人以群分。當(dāng)有一個分類指標(biāo)時(shí),分類比較容易。但是當(dāng)有多個指標(biāo),要進(jìn)行分類就不是很容易了。比如,要想把中國的縣分成若干類,可以按照自然條件來分:考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);聚類分析由于不同的指標(biāo)項(xiàng)對重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,因?yàn)檫@樣會忽視相對重要程度的問題。所以需要進(jìn)行多元分類,即聚類分析。最早的聚類分析是由考古學(xué)家在對考古分類中研究中發(fā)展起來的,同時(shí)又應(yīng)用于昆蟲的分類中,此后又廣泛地應(yīng)用在天氣、生物等方面。聚類分析對于一批數(shù)據(jù),人們既可以對變量(指標(biāo))
2、進(jìn)行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。如何聚類?聚類分析就是要找出具有相近程度的點(diǎn)或類聚為一類;如何衡量這個“相近程度”?就是要根據(jù)“距離”來確定。這里的距離含義很廣,凡是滿足4個條件(后面講)的都是距離,如歐氏距離、馬氏距離…,相似系數(shù)也可看作為距離。距離和相似系數(shù)距離什么是距離?首先我們看樣本數(shù)據(jù):一般滿足以下四個條件時(shí),就稱為距離:常用距離——明氏距離Minkowski距離:當(dāng)q=1時(shí):當(dāng)q=2時(shí):當(dāng)q=∞時(shí)改進(jìn):1)各指標(biāo)測量值
3、相差懸殊時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化處理后再計(jì)算距離xij>0時(shí),LanceWilliams距離2)馬氏距離明氏距離的缺點(diǎn):1)距離大小與各指標(biāo)的觀測單位有關(guān)2)沒有考慮指標(biāo)間的相關(guān)性分類變量距離測度簡單匹配系數(shù):是測度二分類變量的,是度量兩個案例在所有的聚類變量上答案相同的情況出現(xiàn)的頻率。個體j個體i101ab0cda為個體i與個體j在所有變量上同時(shí)取1的個數(shù);d為同時(shí)取0的個數(shù)特點(diǎn):排除同時(shí)擁有或同時(shí)不擁有某特征的情況;取0和1地位等價(jià),編碼方案的變化不會引起系數(shù)的變化。例姓名授課方式上機(jī)時(shí)間選某門課程張三111李四110王五001(張三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)
4、=1/3(張三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3張三距李四近關(guān)聯(lián)測度雅科比系數(shù):是在簡單匹配系數(shù)基礎(chǔ)上進(jìn)行的改進(jìn),也是度量二分類變量的。個體j個體i101ab0cda為個體i與個體j在所有變量上同時(shí)取1的個數(shù);d為同時(shí)取0的個數(shù)特點(diǎn):排除同時(shí)不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗(yàn)中的陽性特征);編碼方案會引起系數(shù)的變化分類變量距離測度姓名授課方式上機(jī)時(shí)間選某門課程張三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(張三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,李四
5、)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(張三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)相似系數(shù)夾角余弦—cosine盡管圖中AB和CD長度不一樣,但形狀相似。當(dāng)長度不是主要矛盾時(shí),就可利用夾角余弦這樣的相似系數(shù)。相似系數(shù)相關(guān)系數(shù)也可用相關(guān)系數(shù)來刻畫樣品之間的相似關(guān)系。把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來,可形成樣品相關(guān)系數(shù)矩陣。系統(tǒng)聚類法系統(tǒng)聚類法的步驟可選擇適當(dāng)?shù)木嚯x,計(jì)算距離把每個樣品看成一類,構(gòu)造n個類合并最近的兩類為一新類計(jì)算新類與當(dāng)前各類的距離判
6、斷畫聚類圖根據(jù)實(shí)際情況,確定類和類的個數(shù)僅有一個類不是僅有一個類采用系統(tǒng)聚類法系統(tǒng)聚類法最短距離法——NearestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5073.53.50系統(tǒng)聚類法最長距離法——FurthestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5083.53.50系統(tǒng)聚類法重心法——CentroidClustering類平均法——Between-groupsLi
7、nkage系統(tǒng)聚類法離差平方和法——Word’sMethod它的思想來源于方差分析此外,還有中間距離法、類內(nèi)平均法等。SPSS中的聚類分析與過程例9.1飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量SPSS中的聚類分析Spss中的聚類功能常用的有兩種:快速聚類(迭代過程):K-MeansCluster分層聚類:HierarchicalK-MeansCluster原理首先,選擇n個數(shù)值型變量參與聚