spss的聚類分析

ID：41322123

大小：677.50 KB

頁數(shù)：39頁

時(shí)間：2019-08-22

資源描述：

《spss的聚類分析》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、第六章聚類分析把對象分類—1分類俗語說，物以類聚、人以群分。當(dāng)有一個分類指標(biāo)時(shí)，分類比較容易。但是當(dāng)有多個指標(biāo)，要進(jìn)行分類就不是很容易了。比如，要想把中國的縣分成若干類，可以按照自然條件來分：考慮降水、土地、日照、濕度等各方面；也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo)；聚類分析由于不同的指標(biāo)項(xiàng)對重要程度或依賴關(guān)系是相互不同的，所以也不能用平均的方法，因?yàn)檫@樣會忽視相對重要程度的問題。所以需要進(jìn)行多元分類，即聚類分析。最早的聚類分析是由考古學(xué)家在對考古分類中研究中發(fā)展起來的，同時(shí)又應(yīng)用于昆蟲的分類中，此后又廣泛地應(yīng)用在天氣、生物等方面。聚類分析對于一批數(shù)據(jù)，人們既可以對變量（指標(biāo)）

2、進(jìn)行分類(相當(dāng)于對數(shù)據(jù)中的列分類)，也可以對觀測值（事件，樣品）來分類（相當(dāng)于對數(shù)據(jù)中的行分類）。對變量的聚類稱為R型聚類，而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的，沒有什么不同。如何聚類？聚類分析就是要找出具有相近程度的點(diǎn)或類聚為一類；如何衡量這個“相近程度”？就是要根據(jù)“距離”來確定。這里的距離含義很廣，凡是滿足4個條件（后面講）的都是距離，如歐氏距離、馬氏距離…，相似系數(shù)也可看作為距離。距離和相似系數(shù)距離什么是距離？首先我們看樣本數(shù)據(jù)：一般滿足以下四個條件時(shí)，就稱為距離：常用距離——明氏距離Minkowski距離：當(dāng)q=1時(shí)：當(dāng)q=2時(shí)：當(dāng)q=∞時(shí)改進(jìn)：1）各指標(biāo)測量值

3、相差懸殊時(shí)，數(shù)據(jù)標(biāo)準(zhǔn)化處理后再計(jì)算距離xij＞0時(shí)，LanceWilliams距離2）馬氏距離明氏距離的缺點(diǎn)：1）距離大小與各指標(biāo)的觀測單位有關(guān)2）沒有考慮指標(biāo)間的相關(guān)性分類變量距離測度簡單匹配系數(shù)：是測度二分類變量的，是度量兩個案例在所有的聚類變量上答案相同的情況出現(xiàn)的頻率。個體j個體i101ab0cda為個體i與個體j在所有變量上同時(shí)取1的個數(shù)；d為同時(shí)取0的個數(shù)特點(diǎn)：排除同時(shí)擁有或同時(shí)不擁有某特征的情況；取0和1地位等價(jià)，編碼方案的變化不會引起系數(shù)的變化。例姓名授課方式上機(jī)時(shí)間選某門課程張三111李四110王五001（張三，李四）：a=2b=1c=0d=0d(x,y)=1/(1+2)

4、=1/3（張三，王五）：a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3張三距李四近關(guān)聯(lián)測度雅科比系數(shù)：是在簡單匹配系數(shù)基礎(chǔ)上進(jìn)行的改進(jìn)，也是度量二分類變量的。個體j個體i101ab0cda為個體i與個體j在所有變量上同時(shí)取1的個數(shù)；d為同時(shí)取0的個數(shù)特點(diǎn)：排除同時(shí)不擁有某特征的情況；取1的狀態(tài)比取0更有意義(如:臨床檢驗(yàn)中的陽性特征)；編碼方案會引起系數(shù)的變化分類變量距離測度姓名授課方式上機(jī)時(shí)間選某門課程張三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(張三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,李四

5、)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(張三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)相似系數(shù)夾角余弦—cosine盡管圖中AB和CD長度不一樣，但形狀相似。當(dāng)長度不是主要矛盾時(shí)，就可利用夾角余弦這樣的相似系數(shù)。相似系數(shù)相關(guān)系數(shù)也可用相關(guān)系數(shù)來刻畫樣品之間的相似關(guān)系。把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來，可形成樣品相關(guān)系數(shù)矩陣。系統(tǒng)聚類法系統(tǒng)聚類法的步驟可選擇適當(dāng)?shù)木嚯x，計(jì)算距離把每個樣品看成一類，構(gòu)造n個類合并最近的兩類為一新類計(jì)算新類與當(dāng)前各類的距離判

6、斷畫聚類圖根據(jù)實(shí)際情況，確定類和類的個數(shù)僅有一個類不是僅有一個類采用系統(tǒng)聚類法系統(tǒng)聚類法最短距離法——NearestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5073.53.50系統(tǒng)聚類法最長距離法——FurthestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5083.53.50系統(tǒng)聚類法重心法——CentroidClustering類平均法——Between-groupsLi

7、nkage系統(tǒng)聚類法離差平方和法——Word’sMethod它的思想來源于方差分析此外，還有中間距離法、類內(nèi)平均法等。SPSS中的聚類分析與過程例9.1飲料數(shù)據(jù)（drink.sav）16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量SPSS中的聚類分析Spss中的聚類功能常用的有兩種：快速聚類（迭代過程）：K-MeansCluster分層聚類：HierarchicalK-MeansCluster原理首先，選擇n個數(shù)值型變量參與聚

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 39



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時(shí)可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

spss的聚類分析

spss的聚類分析

相關(guān)文章

相關(guān)標(biāo)簽