資源描述:
《《SPSS的聚類分析》PPT課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、第九章SPSS的聚類分析10/6/202119.1聚類分析的一般問題9.1.1聚類分析的意義聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”問題的多元統(tǒng)計(jì)分析方法。聚類分析是一種建立分類的多元統(tǒng)計(jì)分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度在沒有先驗(yàn)知識(shí)的情況下進(jìn)行自動(dòng)分類,產(chǎn)生多個(gè)分類結(jié)果。類內(nèi)部的個(gè)體在特征上具有相似性,不同類間個(gè)體特征的差異性較大。10/6/20212例如,學(xué)校里有些同學(xué)經(jīng)常在一起,關(guān)系比較密切,而他們與另一些同學(xué)卻很少來往,關(guān)系比較疏遠(yuǎn)。究其原因可能會(huì)發(fā)現(xiàn),經(jīng)常在一起的同學(xué)的家庭情況、性格、學(xué)習(xí)成績(jī)、課余愛好等方面有許多共同之處,而關(guān)系比較疏遠(yuǎn)
2、的同學(xué)在這些方面有較大的差異性。為了研究家庭情況、性格、學(xué)習(xí)成績(jī)、課余愛好等是否會(huì)成為劃分學(xué)生小群體的主要決定因素,可以從有關(guān)這些方面的數(shù)據(jù)入手,進(jìn)行客觀分組,然后比較所得的分組是否與實(shí)際相吻合。對(duì)學(xué)生的客觀分組就可采用聚類分析方法。10/6/202139.1.2聚類分析中“親疏程度”的度量方法1、定距型變量個(gè)體間距離的計(jì)算方式歐式距離(Euclideandistance)平方歐式距離(SquaredEuclideandistance)切比雪夫(Chebychev)距離Block距離明考斯基(Minkowski)距離夾角余弦(Cosine)距離用戶自定義(Customized)距離10/
3、6/202142、計(jì)數(shù)變量個(gè)體間距離的計(jì)算方式卡方(Chi-Squaremeasure)距離Phi方(Phi-Squaremeasure)距離3、二值(Binary)變量個(gè)體間距離的計(jì)算方式簡(jiǎn)單匹配系數(shù)(SimpleMatching)雅科比系數(shù)(Jaccard)注:聚類分析的幾點(diǎn)說明所選擇的變量應(yīng)符合聚類的要求各變量的變量值不應(yīng)有數(shù)量級(jí)上的差異各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系10/6/202159.2層次聚類9.2.1層次聚類的兩種類型和兩種方式層次聚類又稱系統(tǒng)聚類,簡(jiǎn)單地講是指聚類過程是按照一定層次進(jìn)行的。層次聚類有兩種類型,分別是Q型聚類和R型聚類;層次聚類的聚類方式又有兩種,分別是
4、凝聚方式聚類和分解方式聚類。10/6/20216Q型聚類:對(duì)樣本進(jìn)行聚類,使具有相似特征的樣本聚集在一起,使差異性大的樣本分離開來。R型聚類:對(duì)變量進(jìn)行聚類,使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的。10/6/20217凝聚方式聚類:其過程是,首先,每個(gè)個(gè)體自成一類;然后,按照某種方法度量所有個(gè)體間的親疏程度,并將其中最“親密”的個(gè)體聚成一小類,形成n-1個(gè)類;接下來,再次度量剩余個(gè)體和小類間的親疏程度,并將當(dāng)前最親密的個(gè)體或小類再聚到一類;重復(fù)上述過程,直到所有個(gè)體聚成一個(gè)大類為止。可
5、見,這種聚類方式對(duì)n個(gè)個(gè)體通過n-1步可凝聚成一大類。分解方式聚類:其過程是,首先,所有個(gè)體都屬一大類;然后,按照某種方法度量所有個(gè)體間的親疏程度,將大類中彼此間最“疏遠(yuǎn)”的個(gè)體分離出去,形成兩類;接下來,再次度量類中剩余個(gè)體間的親疏程度,并將最疏遠(yuǎn)的個(gè)體再分離出去;重復(fù)上述過程,不斷進(jìn)行類分解,直到所有個(gè)體自成一類為止??梢?,這種聚類方式對(duì)包含n個(gè)個(gè)體的大類通過n-1步可分解成n個(gè)個(gè)體。SPSS中的層次聚類采用的是凝聚方式。10/6/202189.2.2個(gè)體與小類、小類與小類間“親疏程度”的度量方法SPSS中提供了多種度量個(gè)體與小類、小類與小類間“親疏程度”的方法。與個(gè)體間“親疏程度”
6、的測(cè)度方法類似,應(yīng)首先定義個(gè)體與小類、小類與小類的距離。距離小的關(guān)系親密,距離大的關(guān)系疏遠(yuǎn)。這里的距離是在個(gè)體間距離的基礎(chǔ)上定義的,常見的距離有:10/6/20219最近鄰居(NearestNeighbor)距離:個(gè)體與小類中每個(gè)個(gè)體距離的最小值。最遠(yuǎn)鄰居(FurthestNeighbor)距離:個(gè)體與小類中每個(gè)個(gè)體距離的最大值。組間平均鏈鎖(Between-groupslinkage)距離:個(gè)體與小類中每個(gè)個(gè)體距離的平均值。組內(nèi)平均鏈鎖(Within-groupslinkage)距離:個(gè)體與小類中每個(gè)個(gè)體距離以及小類內(nèi)各個(gè)體間距離的平均值。重心(Centroidclustering)距
7、離:個(gè)體與小類的重心點(diǎn)的距離。離差平方和法(Ward’smethod):聚類過程中使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先合并為一類。10/6/2021109.2.3層次聚類的基本操作1、選擇菜單Analyze-Classify-HierarchicalCluster,出現(xiàn)窗口:10/6/2021112、把參與層次聚類分析的變量選到Variable(s)框中。3、把一個(gè)字符型變量作為標(biāo)記變量選到LabelCasesby框中,它將大大