資源描述:
《spss 聚類(lèi)分析》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第14章聚類(lèi)分析與判別分析介紹:1、聚類(lèi)分析2、判別分析分類(lèi)學(xué)是人類(lèi)認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類(lèi)分析和判別分析是研究事物分類(lèi)的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。14.1.1聚類(lèi)分析根據(jù)事物本身的特性研究個(gè)體分類(lèi)的方法,原則是同一類(lèi)中的個(gè)體有較大的相似性,不同類(lèi)中的個(gè)體差異很大。根據(jù)分類(lèi)對(duì)象的不同,分為樣品(觀(guān)測(cè)量)聚類(lèi)和變量聚類(lèi)兩種:樣品聚類(lèi):對(duì)觀(guān)測(cè)量(Case)進(jìn)行聚類(lèi)(不同的目的選用不同的指標(biāo)作為分類(lèi)的依據(jù),如選拔運(yùn)動(dòng)員與分課外活動(dòng)小組)變量聚類(lèi):找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動(dòng)中不乏有變量聚類(lèi)
2、的實(shí)例,如:衣服號(hào)碼(身長(zhǎng)、胸圍、褲長(zhǎng)、腰圍)、鞋的號(hào)碼。變量聚類(lèi)使批量生產(chǎn)成為可能。14.1.2判別分析判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類(lèi),求出判別函數(shù)。根據(jù)判別函數(shù)對(duì)未知所屬類(lèi)別的事物進(jìn)行分類(lèi)的一種分析方法。在自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域經(jīng)常遇到需要對(duì)某個(gè)個(gè)體屬于哪一類(lèi)進(jìn)行判斷。如動(dòng)物學(xué)家對(duì)動(dòng)物如何分類(lèi)的研究和某個(gè)動(dòng)物屬于哪一類(lèi)、目、綱的判斷。不同:判別分析和聚類(lèi)分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個(gè)體的分類(lèi)(訓(xùn)練樣本)。14.1.3聚類(lèi)分析與判別分析的SPSS過(guò)程在A(yíng)nalyze?Classify下
3、:K-MeansCluster:觀(guān)測(cè)量快速聚類(lèi)分析過(guò)程HierarchicalCluster:分層聚類(lèi)(進(jìn)行觀(guān)測(cè)量聚類(lèi)和變量聚類(lèi)的過(guò)程Discriminant:進(jìn)行判別分析的過(guò)程14.2快速樣本聚類(lèi)過(guò)程(QuickCluster)使用k均值分類(lèi)法對(duì)觀(guān)測(cè)量進(jìn)行聚類(lèi)可使用系統(tǒng)的默認(rèn)選項(xiàng)或自己設(shè)置選項(xiàng),如分為幾類(lèi)、指定初始類(lèi)中心、是否將聚類(lèi)結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等??焖倬垲?lèi)實(shí)例(P342,data14-01a):使用系統(tǒng)的默認(rèn)值進(jìn)行:對(duì)運(yùn)動(dòng)員的分類(lèi)(分為4類(lèi))Analyze?Classify?K-MeansClusterVariables:x1,x2,x
4、3LabelCaseBy:noNumberofCluster:4比較有用的結(jié)果:聚類(lèi)結(jié)果形成的最后四類(lèi)中心點(diǎn)(FinalClusterCenters)和每類(lèi)的觀(guān)測(cè)量數(shù)目(NumberofCasesineachCluster)但不知每個(gè)運(yùn)動(dòng)員究竟屬于哪一類(lèi)?這就要用到Save選項(xiàng)14.2快速樣本聚類(lèi)過(guò)程(QuickCluster)中的選項(xiàng)使用快速聚類(lèi)的選擇項(xiàng):類(lèi)中心數(shù)據(jù)的輸入與輸出:Centers選項(xiàng)輸出數(shù)據(jù)選擇項(xiàng):Save選項(xiàng)聚類(lèi)方法選擇項(xiàng):Method選項(xiàng)聚類(lèi)何時(shí)停止選擇項(xiàng):Iterate選項(xiàng)輸出統(tǒng)計(jì)量選擇項(xiàng):Option選項(xiàng)14.2指定初始類(lèi)中心的聚類(lèi)
5、方法例題P343數(shù)據(jù)同上(data14-01a):以四個(gè)四類(lèi)成績(jī)突出者的數(shù)據(jù)為初始聚類(lèi)中心(種子)進(jìn)行聚類(lèi)。類(lèi)中心數(shù)據(jù)文件data14-01b(但缺一列Cluster_,不能直接使用,要修改)。對(duì)運(yùn)動(dòng)員的分類(lèi)(還是分為4類(lèi))Analyze?Classify?K-MeansClusterVariables:x1,x2,x3LabelCaseBy:noNumberofCluster:4Center:Readinitialfrom:data14-01bSave:Clustermembership和DistancefromClusterCenter比較有用的結(jié)果(
6、可將結(jié)果與前面沒(méi)有初始類(lèi)中心比較):聚類(lèi)結(jié)果形成的最后四類(lèi)中心點(diǎn)(FinalClusterCenters)每類(lèi)的觀(guān)測(cè)量數(shù)目(NumberofCasesineachCluster)在數(shù)據(jù)文件中的兩個(gè)新變量qc1_1(每個(gè)觀(guān)測(cè)量最終被分配到哪一類(lèi))和qc1_2(觀(guān)測(cè)量與所屬類(lèi)中心點(diǎn)的距離)14.3分層聚類(lèi)(HierarchicalCluster)分層聚類(lèi)方法:分解法:先視為一大類(lèi),再分成幾類(lèi)凝聚法:先視每個(gè)為一類(lèi),再合并為幾大類(lèi)可用于觀(guān)測(cè)量(樣本)聚類(lèi)(Q型)和變量聚類(lèi)(R型)一般分為兩步(自動(dòng),可從Paste的語(yǔ)句知道,P359):Proximities:先
7、對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理(標(biāo)準(zhǔn)化和計(jì)算距離等)Cluster:然后進(jìn)行聚類(lèi)分析兩種統(tǒng)計(jì)圖:樹(shù)形圖(Dendrogram)和冰柱圖(Icicle)各類(lèi)型數(shù)據(jù)的標(biāo)準(zhǔn)化、距離和相似性計(jì)算P348-354定距變量、分類(lèi)變量、二值變量標(biāo)準(zhǔn)化方法p353:ZScores、Range-1to1、Range0to1等14.3.4用分層聚類(lèi)法進(jìn)行觀(guān)測(cè)量聚類(lèi)實(shí)例P358對(duì)20種啤酒進(jìn)行分類(lèi)(data14-02),變量包括:Beername(啤酒名稱(chēng))、calorie(熱量)、sodium(鈉含量)、alcohol(酒精含量)、cost(價(jià)格)Analyze→Classify→Hie
8、rarchicalCluster:Variables:calori