SPSS的聚類分析.ppt

SPSS的聚類分析.ppt

ID:49410957

大?。?29.50 KB

頁數(shù):40頁

時(shí)間:2020-02-06

SPSS的聚類分析.ppt_第1頁
SPSS的聚類分析.ppt_第2頁
SPSS的聚類分析.ppt_第3頁
SPSS的聚類分析.ppt_第4頁
SPSS的聚類分析.ppt_第5頁
資源描述:

《SPSS的聚類分析.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第八章SPSS的聚類分析聚類分析概述(一)概念(1)聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”的一種方法,屬多元統(tǒng)計(jì)分析方法.例如:細(xì)分市場、消費(fèi)行為劃分聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類的方法.其中:類內(nèi)個(gè)體具有較高的相似性,類間的差異性較大.聚類分析概述兩類:(001002)(003004005)三類:(001002)(003)(004005)(2)例如聚類分析概述(3)總結(jié)上述分類的原則:依據(jù)學(xué)生成績的差距,差距較小的為一類分類過程

2、中,沒有事先指定分類的標(biāo)準(zhǔn).完全根據(jù)樣本數(shù)據(jù)客觀產(chǎn)生分類結(jié)果.(4)SPSS中的聚類方法分層聚類K-MEANS快速聚類聚類分析概述(二)特點(diǎn)聚類分析前所有個(gè)體所屬的類別是未知的,類別個(gè)數(shù)一般也是未知的,分析的依據(jù)只有原始數(shù)據(jù),可能事先沒有任何有關(guān)類別的信息可參考嚴(yán)格地,聚類分析并不是純粹的統(tǒng)計(jì)技術(shù),不象其他多元分析,需要從樣本去推斷總體一般不涉及統(tǒng)計(jì)量分布,也不需顯著性檢驗(yàn)聚類分析更象是一種建立假設(shè)的方法,而對(duì)相關(guān)假設(shè)的檢驗(yàn)還需要借助其他統(tǒng)計(jì)方法聚類分析概述(三)注意聚類分析主要用于探索性研究,其分析結(jié)

3、果可提供多個(gè)可能的解,最終解的選擇需要研究者的主觀判斷和后續(xù)分析聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對(duì)最終解都可能產(chǎn)生實(shí)質(zhì)性的影響不管實(shí)際數(shù)據(jù)中是否存在不同的類別,利用聚類分析都能得到分成若干類別的解分層聚類(一)思路:聚類過程具有一定的層次性以合并(凝聚)的方式聚類(SPSS采用)首先,每個(gè)個(gè)體自成一類其次,將最“親密”的個(gè)體聚成一小類然后,將最“親密”的小類或個(gè)體再聚成一類重復(fù)上述過程,即:把所有的個(gè)體和小類聚集成越來越大的類,直到所有的個(gè)體都到一起(一大類)為止可見,隨

4、著聚類的進(jìn)行,類內(nèi)的“親密”性在逐漸減低——一旦個(gè)案(變量)被聚為一類,以后分類結(jié)果不會(huì)改變分層聚類(一)思路以分解的方式聚類首先,所有個(gè)體都屬于一類其次,將大類中最“疏遠(yuǎn)”的小類或個(gè)體分離出去然后,分別將小類中最“疏遠(yuǎn)”的小類或個(gè)體再分離出去重復(fù)上述過程,即:把類分解成越來越小的小類,直到所有的個(gè)體自成一類為止可見,隨著聚類的進(jìn)行,類內(nèi)的親密性在逐漸增強(qiáng)分層聚類(二)“親疏”程度的衡量(1)衡量指標(biāo)相似性:數(shù)據(jù)間相似程度的度量距離:數(shù)據(jù)間差異程度的度量.距離越近,越“親密”,聚成一類;距離越遠(yuǎn),越“疏

5、遠(yuǎn)”,分別屬于不同的類(2)衡量對(duì)象個(gè)體間距離個(gè)體和小類間、小類和小類間的距離分層聚類(三)定距型個(gè)體間的距離把每個(gè)個(gè)案數(shù)據(jù)看成是k維空間上的點(diǎn),在點(diǎn)和點(diǎn)之間定義某種距離.一般適用于定距數(shù)據(jù)歐氏距離(EUCLID)平方歐氏距離(SEUCLID)馬氏距離(BLOCK)切比雪夫距離(CHEBYCHEV)明考斯基絕對(duì)值冪距離(POWER)分層聚類結(jié)論:由于3.61距離最小,因此(004,005)首先聚成一類個(gè)體距離矩陣(三)定距型個(gè)體間的距離歐氏距離舉例分層聚類(四)品質(zhì)型個(gè)體間的距離簡單匹配(simplem

6、atching)系數(shù):適用二值變量。樣本j樣本i101ab0cda為樣本i與樣本j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)擁有或同時(shí)不擁有某特征的情況;取0和1地位等價(jià),編碼方案的變化不會(huì)引起系數(shù)的變化。分層聚類(四)品質(zhì)型個(gè)體間的距離簡單匹配(simplematching)系數(shù):適用二值變量姓名授課方式上機(jī)時(shí)間選某門課程張三111李四110王五001(張三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,王五):a=1b=2c=0d=0d(x,y)=2/

7、(1+2)=2/3張三距李四近分層聚類(四)品質(zhì)型個(gè)體間的距離雅科比(Jaccard)系數(shù):適用二值變量樣本j樣本i101ab0cda為樣本i與樣本j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗(yàn)中的陽性特征);編碼方案會(huì)引起系數(shù)的變化分層聚類(四)品質(zhì)型個(gè)體間的距離雅科比(Jaccard)系數(shù):適用二值變量姓名授課方式上機(jī)時(shí)間選某門課程張三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(張三,李四

8、)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(張三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(Jaccard)(張三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)(Jaccard)分層聚類(四)品質(zhì)型個(gè)體間的距離Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名性別發(fā)燒

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。