spss的聚類(lèi)分析

spss的聚類(lèi)分析

ID:41322123

大小:677.50 KB

頁(yè)數(shù):39頁(yè)

時(shí)間:2019-08-22

spss的聚類(lèi)分析_第1頁(yè)
spss的聚類(lèi)分析_第2頁(yè)
spss的聚類(lèi)分析_第3頁(yè)
spss的聚類(lèi)分析_第4頁(yè)
spss的聚類(lèi)分析_第5頁(yè)
資源描述:

《spss的聚類(lèi)分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)

1、第六章聚類(lèi)分析把對(duì)象分類(lèi)—1分類(lèi)俗語(yǔ)說(shuō),物以類(lèi)聚、人以群分。當(dāng)有一個(gè)分類(lèi)指標(biāo)時(shí),分類(lèi)比較容易。但是當(dāng)有多個(gè)指標(biāo),要進(jìn)行分類(lèi)就不是很容易了。比如,要想把中國(guó)的縣分成若干類(lèi),可以按照自然條件來(lái)分:考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);聚類(lèi)分析由于不同的指標(biāo)項(xiàng)對(duì)重要程度或依賴(lài)關(guān)系是相互不同的,所以也不能用平均的方法,因?yàn)檫@樣會(huì)忽視相對(duì)重要程度的問(wèn)題。所以需要進(jìn)行多元分類(lèi),即聚類(lèi)分析。最早的聚類(lèi)分析是由考古學(xué)家在對(duì)考古分類(lèi)中研究中發(fā)展起來(lái)的,同時(shí)又應(yīng)用于昆蟲(chóng)的分類(lèi)中,此后又廣泛地應(yīng)用在天氣、生物等方面。聚類(lèi)分析對(duì)于一批數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))

2、進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi)),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi))。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi),而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi)。這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的,沒(méi)有什么不同。如何聚類(lèi)?聚類(lèi)分析就是要找出具有相近程度的點(diǎn)或類(lèi)聚為一類(lèi);如何衡量這個(gè)“相近程度”?就是要根據(jù)“距離”來(lái)確定。這里的距離含義很廣,凡是滿足4個(gè)條件(后面講)的都是距離,如歐氏距離、馬氏距離…,相似系數(shù)也可看作為距離。距離和相似系數(shù)距離什么是距離?首先我們看樣本數(shù)據(jù):一般滿足以下四個(gè)條件時(shí),就稱(chēng)為距離:常用距離——明氏距離Minkowski距離:當(dāng)q=1時(shí):當(dāng)q=2時(shí):當(dāng)q=∞時(shí)改進(jìn):1)各指標(biāo)測(cè)量值

3、相差懸殊時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化處理后再計(jì)算距離xij>0時(shí),LanceWilliams距離2)馬氏距離明氏距離的缺點(diǎn):1)距離大小與各指標(biāo)的觀測(cè)單位有關(guān)2)沒(méi)有考慮指標(biāo)間的相關(guān)性分類(lèi)變量距離測(cè)度簡(jiǎn)單匹配系數(shù):是測(cè)度二分類(lèi)變量的,是度量?jī)蓚€(gè)案例在所有的聚類(lèi)變量上答案相同的情況出現(xiàn)的頻率。個(gè)體j個(gè)體i101ab0cda為個(gè)體i與個(gè)體j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)擁有或同時(shí)不擁有某特征的情況;取0和1地位等價(jià),編碼方案的變化不會(huì)引起系數(shù)的變化。例姓名授課方式上機(jī)時(shí)間選某門(mén)課程張三111李四110王五001(張三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)

4、=1/3(張三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3張三距李四近關(guān)聯(lián)測(cè)度雅科比系數(shù):是在簡(jiǎn)單匹配系數(shù)基礎(chǔ)上進(jìn)行的改進(jìn),也是度量二分類(lèi)變量的。個(gè)體j個(gè)體i101ab0cda為個(gè)體i與個(gè)體j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗(yàn)中的陽(yáng)性特征);編碼方案會(huì)引起系數(shù)的變化分類(lèi)變量距離測(cè)度姓名授課方式上機(jī)時(shí)間選某門(mén)課程張三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(張三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,李四

5、)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(張三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)相似系數(shù)夾角余弦—cosine盡管圖中AB和CD長(zhǎng)度不一樣,但形狀相似。當(dāng)長(zhǎng)度不是主要矛盾時(shí),就可利用夾角余弦這樣的相似系數(shù)。相似系數(shù)相關(guān)系數(shù)也可用相關(guān)系數(shù)來(lái)刻畫(huà)樣品之間的相似關(guān)系。把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來(lái),可形成樣品相關(guān)系數(shù)矩陣。系統(tǒng)聚類(lèi)法系統(tǒng)聚類(lèi)法的步驟可選擇適當(dāng)?shù)木嚯x,計(jì)算距離把每個(gè)樣品看成一類(lèi),構(gòu)造n個(gè)類(lèi)合并最近的兩類(lèi)為一新類(lèi)計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離判

6、斷畫(huà)聚類(lèi)圖根據(jù)實(shí)際情況,確定類(lèi)和類(lèi)的個(gè)數(shù)僅有一個(gè)類(lèi)不是僅有一個(gè)類(lèi)采用系統(tǒng)聚類(lèi)法系統(tǒng)聚類(lèi)法最短距離法——NearestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5073.53.50系統(tǒng)聚類(lèi)法最長(zhǎng)距離法——FurthestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5083.53.50系統(tǒng)聚類(lèi)法重心法——CentroidClustering類(lèi)平均法——Between-groupsLi

7、nkage系統(tǒng)聚類(lèi)法離差平方和法——Word’sMethod它的思想來(lái)源于方差分析此外,還有中間距離法、類(lèi)內(nèi)平均法等。SPSS中的聚類(lèi)分析與過(guò)程例9.1飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量SPSS中的聚類(lèi)分析Spss中的聚類(lèi)功能常用的有兩種:快速聚類(lèi)(迭代過(guò)程):K-MeansCluster分層聚類(lèi):HierarchicalK-MeansCluster原理首先,選擇n個(gè)數(shù)值型變量參與聚

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。