資源描述:
《聚類分析的SPSS應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、聚類分析的SPSS應(yīng)用摘要:本文本主要結(jié)合實(shí)例講述SPSS這個(gè)軟件在聚類分析中的應(yīng)用。包括SPSS的一些基本操作,在聚類分析中的相關(guān)參數(shù)設(shè)置,數(shù)據(jù)的錄入,操作步驟等。本文重點(diǎn)是SPSS在聚類分析中的應(yīng)用方法,不對(duì)聚類分析相關(guān)知識(shí)做過多闡述,相關(guān)知識(shí)點(diǎn)參見本組對(duì)聚類分析的詳細(xì)講解。文中結(jié)合2006年全國各省6項(xiàng)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)對(duì)各省進(jìn)行簡單分類這個(gè)實(shí)例,講述兩種最常用聚類分析方法,即系統(tǒng)聚類分析(HierarchicalCluster)和K-均值聚類分析。本文用到的軟件是SPSS19漢化版,各個(gè)版本操作基本一樣,文中相關(guān)選項(xiàng)均有英文注釋
2、,方便非漢化版同學(xué)識(shí)讀操作。一.SPSS數(shù)據(jù)的錄入打開SPSS軟件是下面圖1的界面:圖1上圖1所示是數(shù)據(jù)視圖(見上圖左下角黃色框框),點(diǎn)擊數(shù)據(jù)視圖右邊藍(lán)色框框進(jìn)入變量視圖,如下圖2:圖2在變量視圖中設(shè)置我們需要的變量名,并填寫約束條件,填寫完成后如下圖3:圖3其中,我們需要7個(gè)變量,見名稱一欄,變量中地區(qū)是字符型變量,所以度量標(biāo)準(zhǔn)是名義。其他設(shè)置默認(rèn)即可。其他變量是數(shù)值型,度量標(biāo)準(zhǔn)是度量,其他設(shè)置同為默認(rèn)。設(shè)置好后回到數(shù)據(jù)視圖,如下圖4:圖4可見,變量視圖中設(shè)置的變量均列入數(shù)據(jù)視圖中頂欄。(注:圖4已經(jīng)錄入數(shù)據(jù))以上是SPSS錄入
3、數(shù)據(jù)的基本操作,數(shù)據(jù)錄入完成后開始兩種聚類分析設(shè)置和得出結(jié)果。二.系統(tǒng)聚類分析和K均值聚類分析1.系統(tǒng)聚類分析(1)在數(shù)據(jù)視圖點(diǎn)擊分析(Analyze)---分類(Classify)---系統(tǒng)聚類(Hirarchical?Cluster),如下圖5:圖5進(jìn)入如下圖6界面:圖6回到我們的出發(fā)點(diǎn),我們希望通過六項(xiàng)指標(biāo)對(duì)全國各省進(jìn)行分類,那么分析的變量是這六項(xiàng)指標(biāo),分類標(biāo)準(zhǔn)是不同省份,即地區(qū)。于是這兩大類變量要進(jìn)行不同歸類,進(jìn)行如下圖7設(shè)置即可,把用于聚類的變量選入變量框(variables),把區(qū)分樣本的標(biāo)簽變量(本例即為“地區(qū)”)選
4、入標(biāo)注個(gè)案(labelcaseby):圖7(2)接下來在分群(cluster)欄中選擇聚類類型:要進(jìn)行R型聚類(變量聚類)分析,應(yīng)指定“變量(variables)”;要進(jìn)行Q型聚類(樣品聚類),則指定“個(gè)案(case)”。系統(tǒng)默認(rèn)Q型聚類。我們要將全國不同省份進(jìn)行分類,很明顯不同省份是不同的樣品,對(duì)這些樣品進(jìn)行分類即樣品聚類,所以進(jìn)行Q型聚類,默認(rèn)即可。輸出欄輸出我們需要的項(xiàng)目,這里統(tǒng)計(jì)量和圖都選擇。設(shè)置好后如下圖8:圖8(3)單擊“方法(method)”按鈕,展開系統(tǒng)聚類分析的方法選擇對(duì)話框,即“hierarchicalclus
5、teranalysis:method”。度量標(biāo)準(zhǔn)(Clustermethod0下拉框中給出了可以選擇的計(jì)算類間距離的方法,系統(tǒng)默認(rèn)是組間均鏈鎖法(between-groupslinkage),本例選擇ward’smethod;度量標(biāo)準(zhǔn)(measure)框中給出的是計(jì)算樣品間距的方法,本例使用平方euclidean距離(squaredeuclideandistance),SPSS默認(rèn)計(jì)算歐氏距離平方。在轉(zhuǎn)換值(transformvalues)的標(biāo)準(zhǔn)化(standardize)框中選擇是否對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,本例選擇zscore
6、s。點(diǎn)擊繼續(xù)(continue)回到主對(duì)話框。(注:類間距離和樣品間距的選擇在這里沒有贅述,詳見我們組講課內(nèi)容)設(shè)置好后如下圖9:圖9(4)SPSS系統(tǒng)聚類分析默認(rèn)輸出的分析結(jié)果有凝聚狀態(tài)表(agglomerationschedule)和冰柱圖(icicle)。點(diǎn)擊統(tǒng)計(jì)量(statistics)選中合并進(jìn)程表(agglomerationschedule)。選擇方案范圍,最大聚類數(shù)設(shè)為4,最小聚類數(shù)設(shè)為2,點(diǎn)擊繼續(xù)(continue)回到主對(duì)話框,此時(shí)分析結(jié)果中就包含了凝聚狀態(tài)表,如下圖10:圖10點(diǎn)擊繪制樹狀圖,冰柱圖里選擇所有聚
7、類和方向垂直。點(diǎn)擊繼續(xù)回到主對(duì)話框。如下圖11:圖11(5)回到主對(duì)話框點(diǎn)擊確定(OK),得到所有的分類結(jié)果。結(jié)果以文檔的形式導(dǎo)出,包括冰柱圖,樹狀圖,距離表。2.K均值聚類分析依然取上一個(gè)例子作為分類樣本說明這個(gè)方法。首先,如果原始變量取值差異較大,應(yīng)先將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以避免變量值差異較大對(duì)分類結(jié)果產(chǎn)生影響。從下圖12統(tǒng)計(jì)表中我們可以看出各省六項(xiàng)指標(biāo)數(shù)量級(jí)有較大差異,所以有必要進(jìn)行標(biāo)準(zhǔn)化處理。圖12過程如下:選擇分析(analyze)---描述統(tǒng)計(jì)(descriptivesstatistics)---描述(descript
8、ives)進(jìn)入主對(duì)話框,將需要標(biāo)準(zhǔn)化的變量選入“變量(variables)”框,然后勾選“將標(biāo)準(zhǔn)化得分另存為變量(savestandardizedvaluesasvariables)”,最后點(diǎn)擊確定(OK),標(biāo)準(zhǔn)化后的數(shù)據(jù)將出現(xiàn)在原始數(shù)據(jù)表中。以上