資源描述:
《Applied_Multivariate_Data_Analysis_ch10.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、第十章集群分析(ClusterAnalysis)將比較相似的樣本聚集在一起,形成集群(cluster)。以『距離』作為分類的依據(jù),『相對(duì)距離』愈近的,『相似程度』愈高,歸類成同一群組。此統(tǒng)計(jì)分析方法不需要任何的假設(shè)。集群分析可分成分層法(Hierarchical)、非分層法(Nonhierarchical)和兩階段法。1.分層法有凝聚分層法(Agglomerative)和分離分層法(Divisive)。『距離』可分為『點(diǎn)間距離』和『群間距離』?!狐c(diǎn)間距離』:歐氏距離(EuclideanDistance):馬氏距離(MahalanobisDistance)
2、:城市街距離(CityBlockDistance):(1)凝聚分層法(Agglomerative):開(kāi)始時(shí)每一個(gè)體為一群,然後最近的兩個(gè)體合成一群,一次結(jié)合使群組越變?cè)缴?,最後所有個(gè)體結(jié)合成一群。依不同的『群間距離』分為,(A)最近法(單一聯(lián)結(jié)法SingleLinkage):d=MindA,Biji∈Aj∈B(B)最遠(yuǎn)法(完全聯(lián)結(jié)法CompleteLinkage):d=MaxdA,Biji∈Aj∈B(C)平均法(AverageLinkage):d=ΣΣd/n,n為全部距離的個(gè)數(shù)A,Bij(D)中心法(CentroidMethod):2d=d(x,x)=
3、
4、
5、x?x
6、
7、A,BABAB(E)華德法(WardsMethod華德最小變異法):22d=n
8、
9、x?x
10、
11、+n
12、
13、x?x
14、
15、A,BAABB(2)分離分層法(Divisive):開(kāi)始所有個(gè)體為一群,然後分成兩群、三群,直到每個(gè)體為一群。此法不常用。2.非分層法最具代表性的為K組平均法(K-Meanns)。開(kāi)始任意將個(gè)體分成K組,然後將個(gè)體在個(gè)群間移動(dòng),使(1)群內(nèi)變異最??;(2)群間變異最大。3.兩階段法為第一階段分層法分群,決定群組個(gè)數(shù),第二階段再以K組平均法進(jìn)行群集,移動(dòng)各群組內(nèi)的個(gè)體,保持全部群組為k組。2SPSS點(diǎn)選方式:分層法:Variable(s
16、):放入考慮之群集變數(shù)LabelCasesby:放入顯示個(gè)體的名稱變數(shù)Cluster:Cases(做個(gè)體的群集分析);Variables(做變數(shù)的群集分析)Display:Statistics(統(tǒng)計(jì)量);Plots(圖形)。預(yù)設(shè)值通常會(huì)保留。3Statistics:凝聚過(guò)程(Agglomerativeschedule)近似性矩陣(Proximitymatrix)集群組員(ClusterMembership):(設(shè)定群集個(gè)數(shù))None:沒(méi)有設(shè)限制Singlesolution:指定一個(gè)大於1的數(shù)Rangeofsolutions:指定一個(gè)範(fàn)圍4Plots:樹(shù)狀
17、圖(Dendrogram)冰柱圖(Icicle):Allclusters(顯示所有群集)Specifiedrangeofclusters(顯示指定的群集範(fàn)圍之結(jié)果)None(不會(huì)顯示冰柱圖)方向(Orientation):Vertical(垂直)Horizontal(水平)5Method:凝聚分層法的方法(ClusterMethod)(選取群間距離的算法)(有七種選擇)Measure:(資料型態(tài))(選取點(diǎn)間距離的算法)Interval(區(qū)間資料)Counts(計(jì)數(shù)資料)Binary(二元資料)TransformValues:(轉(zhuǎn)換值)各種標(biāo)準(zhǔn)化的方式Tr
18、ansformMeasures:(轉(zhuǎn)換衡量)6Save:集群組員(ClusterMembership):(儲(chǔ)存群集組員變數(shù))None:不儲(chǔ)存Singlesolution:儲(chǔ)存指定一個(gè)大於1的數(shù)Rangeofsolutions:儲(chǔ)存指定的範(fàn)圍7K-MEAN:NumberofClusters:自行指定群組個(gè)數(shù)(內(nèi)設(shè)2)Method:Iterateandclassify(疊代與分群):不斷疊代與更新群中心位置Classifyonly(分群):使用初始設(shè)定之群中心位置8910以TOEFL.sav為例,(鄧家駒著,多變量分析)1.凝聚分層法(Agglomerati
19、ve)『群間距離』:華德法『點(diǎn)間距離』:歐氏距離平方(SquaredEuclideanDistance)SPSS程式:CLUSTERgpatoeflgmatworkother/METHODWARD/MEASURE=SEUCLID/PRINTSCHEDULE/PLOTDENDROGRAMVICICLE.ClusterCaseProcessingSummarya,bCasesValidMissingTotalNPercentNPercentNPercent15100.00.015100.0a.SquaredEuclideanDistanceusedb.War
20、dLinkageWardLinkageAgglomerationSchedule