資源描述:
《SPSS的聚類分析.ppt》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第八章SPSS的聚類分析聚類分析概述(一)概念(1)聚類分析是統(tǒng)計學中研究“物以類聚”的一種方法,屬多元統(tǒng)計分析方法.例如:細分市場、消費行為劃分聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質上的“親疏”程度,在沒有先驗知識的情況下自動進行分類的方法.其中:類內(nèi)個體具有較高的相似性,類間的差異性較大.聚類分析概述兩類:(001002)(003004005)三類:(001002)(003)(004005)(2)例如聚類分析概述(3)總結上述分類的原則:依據(jù)學生成績的差距,差距較小的為一類分類過程
2、中,沒有事先指定分類的標準.完全根據(jù)樣本數(shù)據(jù)客觀產(chǎn)生分類結果.(4)SPSS中的聚類方法分層聚類K-MEANS快速聚類聚類分析概述(二)特點聚類分析前所有個體所屬的類別是未知的,類別個數(shù)一般也是未知的,分析的依據(jù)只有原始數(shù)據(jù),可能事先沒有任何有關類別的信息可參考嚴格地,聚類分析并不是純粹的統(tǒng)計技術,不象其他多元分析,需要從樣本去推斷總體一般不涉及統(tǒng)計量分布,也不需顯著性檢驗聚類分析更象是一種建立假設的方法,而對相關假設的檢驗還需要借助其他統(tǒng)計方法聚類分析概述(三)注意聚類分析主要用于探索性研究,其分析結
3、果可提供多個可能的解,最終解的選擇需要研究者的主觀判斷和后續(xù)分析聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終解都可能產(chǎn)生實質性的影響不管實際數(shù)據(jù)中是否存在不同的類別,利用聚類分析都能得到分成若干類別的解分層聚類(一)思路:聚類過程具有一定的層次性以合并(凝聚)的方式聚類(SPSS采用)首先,每個個體自成一類其次,將最“親密”的個體聚成一小類然后,將最“親密”的小類或個體再聚成一類重復上述過程,即:把所有的個體和小類聚集成越來越大的類,直到所有的個體都到一起(一大類)為止可見,隨
4、著聚類的進行,類內(nèi)的“親密”性在逐漸減低——一旦個案(變量)被聚為一類,以后分類結果不會改變分層聚類(一)思路以分解的方式聚類首先,所有個體都屬于一類其次,將大類中最“疏遠”的小類或個體分離出去然后,分別將小類中最“疏遠”的小類或個體再分離出去重復上述過程,即:把類分解成越來越小的小類,直到所有的個體自成一類為止可見,隨著聚類的進行,類內(nèi)的親密性在逐漸增強分層聚類(二)“親疏”程度的衡量(1)衡量指標相似性:數(shù)據(jù)間相似程度的度量距離:數(shù)據(jù)間差異程度的度量.距離越近,越“親密”,聚成一類;距離越遠,越“疏
5、遠”,分別屬于不同的類(2)衡量對象個體間距離個體和小類間、小類和小類間的距離分層聚類(三)定距型個體間的距離把每個個案數(shù)據(jù)看成是k維空間上的點,在點和點之間定義某種距離.一般適用于定距數(shù)據(jù)歐氏距離(EUCLID)平方歐氏距離(SEUCLID)馬氏距離(BLOCK)切比雪夫距離(CHEBYCHEV)明考斯基絕對值冪距離(POWER)分層聚類結論:由于3.61距離最小,因此(004,005)首先聚成一類個體距離矩陣(三)定距型個體間的距離歐氏距離舉例分層聚類(四)品質型個體間的距離簡單匹配(simplem
6、atching)系數(shù):適用二值變量。樣本j樣本i101ab0cda為樣本i與樣本j在所有變量上同時取1的個數(shù);d為同時取0的個數(shù)特點:排除同時擁有或同時不擁有某特征的情況;取0和1地位等價,編碼方案的變化不會引起系數(shù)的變化。分層聚類(四)品質型個體間的距離簡單匹配(simplematching)系數(shù):適用二值變量姓名授課方式上機時間選某門課程張三111李四110王五001(張三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,王五):a=1b=2c=0d=0d(x,y)=2/
7、(1+2)=2/3張三距李四近分層聚類(四)品質型個體間的距離雅科比(Jaccard)系數(shù):適用二值變量樣本j樣本i101ab0cda為樣本i與樣本j在所有變量上同時取1的個數(shù);d為同時取0的個數(shù)特點:排除同時不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗中的陽性特征);編碼方案會引起系數(shù)的變化分層聚類(四)品質型個體間的距離雅科比(Jaccard)系數(shù):適用二值變量姓名授課方式上機時間選某門課程張三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(張三,李四
8、)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(張三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(Jaccard)(張三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)(Jaccard)分層聚類(四)品質型個體間的距離Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名性別發(fā)燒