資源描述:
《SPSS的聚類分析.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第九章SPSS的聚類分析聚類分析概述概念:聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”的一種方法,屬多元統(tǒng)計(jì)分析方法.例如:細(xì)分市場、消費(fèi)行為劃分聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒有先驗(yàn)知識的情況下自動進(jìn)行分類的方法.其中:類內(nèi)個(gè)體具有較高的相似性,類間的差異性較大.聚類分析概述兩類:(AB)(CDE)三類:(AB)(C)(DE)依據(jù)平均得分的差距,差距較小的為一類.分類過程中,沒有事先指定分類的標(biāo)準(zhǔn).完全根據(jù)樣本數(shù)據(jù)客觀產(chǎn)生分類結(jié)果.親疏遠(yuǎn)程度的衡量指標(biāo)相似性:數(shù)據(jù)間相似程度的度量距離:數(shù)據(jù)間差異程度的度量.距
2、離越近,越“親密”,聚成一類;距離越遠(yuǎn),越“疏遠(yuǎn)”,分別屬于不同的類定距型個(gè)體間的距離:把每個(gè)個(gè)案數(shù)據(jù)看成是n維空間上的點(diǎn),在點(diǎn)和點(diǎn)之間定義某種距離.一般適用于定距數(shù)據(jù)歐氏距離(EUCLID)平方歐氏距離(SEUCLID)聚類分析概述品質(zhì)型個(gè)體間的距離姓名授課方式上機(jī)時(shí)間選某門課程張三111李四110王五001聚類分析概述品質(zhì)型個(gè)體間的距離簡單匹配(simplematching)系數(shù):適用二值變量。個(gè)體j個(gè)體i101ab0cda為個(gè)體i與個(gè)體j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)擁有或同時(shí)不擁有某特征的情況;取0和1地位等
3、價(jià),編碼方案的變化不會引起系數(shù)的變化。聚類分析概述品質(zhì)型個(gè)體間的距離簡單匹配(simplematching)系數(shù):適用二值變量。姓名授課方式上機(jī)時(shí)間選某門課程張三111李四110王五001(張三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3張三距李四近聚類分析概述品質(zhì)型個(gè)體間的距離根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名性別發(fā)燒咳嗽檢查1檢查2檢查3檢查4張三男101000李四女101010王五男110000……..聚類分析概述品質(zhì)型個(gè)體間的距離雅科
4、比(Jaccard)系數(shù):適用二值變量個(gè)體j個(gè)體i101ab0cda為個(gè)體i與個(gè)體j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗(yàn)中的陽性特征);編碼方案會引起系數(shù)的變化聚類分析概述品質(zhì)型個(gè)體間的距離雅科比(Jaccard)系數(shù):適用二值變量姓名授課方式上機(jī)時(shí)間選某門課程張三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(張三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2d(
5、x,y)=1/(1+2)=1/3(相同)(張三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)聚類分析概述品質(zhì)型個(gè)體間的距離Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名性別發(fā)燒咳嗽檢查1檢查2檢查3檢查4張三男101000李四女101010王五男110000……..結(jié)論:張三和李四最有可能得類似的病;李四和王五不太有可能聚類分析概述品質(zhì)型個(gè)體間的距離卡方距離:計(jì)數(shù)變量聚類分析概述姓名選修課門數(shù)(期望頻數(shù))專業(yè)課門數(shù)(期望頻數(shù))得優(yōu)
6、門數(shù)(期望頻數(shù))合計(jì)張三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合計(jì)1712938說明聚類過程中如果數(shù)據(jù)在數(shù)量級上存在差異時(shí),應(yīng)進(jìn)行標(biāo)準(zhǔn)化處理。例如:樣本的歐氏距離元萬元(1,2)26500081.623(1,3)218000193.700(2,3)47000254.897聚類分析概述聚類分析概述說明聚類分析中的變量選擇問題變量應(yīng)和聚類分析的目標(biāo)密切相關(guān)聚類結(jié)果僅是所選定變量所具數(shù)據(jù)特點(diǎn)的反應(yīng).變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進(jìn)行了加權(quán)聚類分析包括:個(gè)案聚類和變量聚類兩種。聚類分析包括:分層聚類
7、和快速聚類分層聚類思路:聚類過程具有一定的層次性以合并(凝聚)的方式聚類(SPSS采用)首先,每個(gè)個(gè)體自成一類其次,將最“親密”的個(gè)體聚成一小類然后,將最“親密”的小類或個(gè)體再聚成一類重復(fù)上述過程,即:把所有的個(gè)體和小類聚集成越來越大的類,直到所有的個(gè)體都到一起(一大類)為止可見,隨著聚類的進(jìn)行,類內(nèi)的“親密”性在逐漸減低分層聚類思路以分解的方式聚類首先,所有個(gè)體都屬于一類其次,將大類中最“疏遠(yuǎn)”的小類或個(gè)體分離出去然后,分別將小類中最“疏遠(yuǎn)”的小類或個(gè)體再分離出去重復(fù)上述過程,即:把類分解成越來越小的小類,直到所有的個(gè)體自成一類為止可見,隨著聚
8、類的進(jìn)行,類內(nèi)的親密性在逐漸增強(qiáng)分層聚類“親疏”程度的衡量對象個(gè)體間距離個(gè)體和小類間、小類和小類間的距離分層聚類個(gè)體和小類、類和類間的距