資源描述:
《SPSS作聚類分析.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、3.3用SPSS作聚類分析常言道:“物以類聚”,對事物分門別類進(jìn)行研究,有利于我們做出正確的判斷。日常生活中,我們不自覺地用定性方法將人分為“好人”、“壞人”;按熟悉程度分為“朋友”、“熟人”、“陌生人”等等。數(shù)理統(tǒng)計中的數(shù)值分類有兩種問題:判別分析:已知分類情況,將未知個體歸入正確類別聚類分析:分類情況未知,對數(shù)據(jù)結(jié)構(gòu)進(jìn)行分類通過分類,有利于我們抓住重點,從總體上去把握事物,找出解決問題的方法。例如將股票進(jìn)行分類,可以為我們投資提供參考。一、聚類分析(ClusterAnalysis)簡介聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不
2、同的類的分析技術(shù)。要做聚類分析,首先得按照我們聚類的目的,從對象中提取出能表現(xiàn)這個目的的特征指標(biāo);然后根據(jù)親疏程度進(jìn)行分類。聚類分析根據(jù)分類對象的不同可分為Q型和R型兩大類Q型是對樣本進(jìn)行分類處理,其作用在于:能利用多個變量對樣本進(jìn)行分類分類結(jié)果直觀,聚類譜系圖能明確、清楚地表達(dá)其數(shù)值分類結(jié)果所得結(jié)果比傳統(tǒng)的定性分類方法更細(xì)致、全面、合理二、聚類對象R型是對變量進(jìn)行分類處理,其作用在于:可以了解變量間及變量組合間的親疏關(guān)系可以根據(jù)變量的聚類結(jié)果及它們之間的關(guān)系,選擇主要變量進(jìn)行回歸分析或Q型聚類分析聚類的主要過程一般可分為如下四個步驟:數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化)構(gòu)造關(guān)系矩陣
3、(親疏關(guān)系的描述)聚類(根據(jù)不同方法進(jìn)行分類)確定最佳分類(類別數(shù))以下我們結(jié)合實際例子分步進(jìn)行討論。三、聚類過程與方法為什么要做數(shù)據(jù)變換→指標(biāo)變量的量綱不同或數(shù)量級相差很大,為了使這些數(shù)據(jù)能放到一起加以比較,常需做變換。在SPSS中如何選擇標(biāo)準(zhǔn)化方法:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對話框中進(jìn)行如下選擇1.數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化)例、下表給出了1982年全國28個省、市、自治區(qū)農(nóng)民家庭收支情況,有六個指標(biāo),是利用調(diào)查資料進(jìn)行聚類分析,為經(jīng)濟(jì)發(fā)展決策提供依據(jù)。(詳見文件1982“農(nóng)民生活消費聚類.
4、sav”)從TransformValues框中點擊向下箭頭,將出現(xiàn)如下可選項,從中選一即可:常用標(biāo)準(zhǔn)化方法(選項說明):None:不進(jìn)行標(biāo)準(zhǔn)化,這是系統(tǒng)默認(rèn)值ZScores:標(biāo)準(zhǔn)化變換為了便于后面的說明,作如下假設(shè):均值表示為標(biāo)準(zhǔn)差表示為所有樣本表示為極差表示為作用:變換后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1,消去了量綱的影響;當(dāng)抽樣樣本改變時,它仍能保持相對穩(wěn)定性。Range–1to1:極差標(biāo)準(zhǔn)化變換作用:變換后的數(shù)據(jù)均值為0,極差為1,且
5、xij*
6、<1,消去了量綱的影響;在以后的分析計算中可以減少誤差的產(chǎn)生。Maximummagnitudeof1作用:變換后的數(shù)據(jù)最大值為
7、1。Range0to1(極差正規(guī)化變換/規(guī)格化變換)作用:變換后的數(shù)據(jù)最小為0,最大為1,其余在區(qū)間[0,1]內(nèi),極差為1,無量綱。Meanof1作用:變換后的數(shù)據(jù)均值為1。Standarddeviationof1作用:變換后的數(shù)據(jù)標(biāo)準(zhǔn)差為1。在SPSS中如何選擇測度:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對話框中進(jìn)行如下選擇2.構(gòu)造關(guān)系矩陣描述變量或樣本的親疏程度的數(shù)量指標(biāo)有兩種:相似系數(shù)——性質(zhì)越接近的樣品,相似系數(shù)越接近于1或-1;彼此無關(guān)的樣品相似系數(shù)則接近于0,聚類時相似的樣品聚為一類距離
8、——將每一個樣品看作m維空間的一個點,在這m維空間中定義距離,距離較近的點歸為一類。相似系數(shù)與距離有40多種,但常用的只是少數(shù)從Measure框中點擊Interval項的向下箭頭,將出現(xiàn)如左可選項,從中選一即可。常用測度(選項說明):Euclideandistance:歐氏距離(二階Minkowski距離)SquaredEucideandistance:平方歐氏距離用途:聚類分析中用得最廣泛的距離但與各變量的量綱有關(guān),未考慮指標(biāo)間的相關(guān)性,也未考慮各變量方差的不同用途:聚類分析中用得最廣泛的距離Cosine:夾角余弦(相似性測度)用途:計算兩個向量在原點處的夾角余弦。
9、當(dāng)兩夾角為0o時,取值為1,說明極相似;當(dāng)夾角為90o時,取值為0,說明兩者不相關(guān)。取值范圍:0~1Pearsoncorrelation:皮爾遜相關(guān)系數(shù)Chebychev:切比雪夫距離用途:計算兩個向量的皮爾遜相關(guān)系數(shù)用途:計算兩個向量的切比雪夫距離Block:絕對值距離(一階Minkowski度量)(又稱Manhattan度量或網(wǎng)格度量)用途:計算兩個向量的絕對值距離Minkowski:明科夫斯基距離用途:計算兩個向量的明科夫斯基距離Customized:自定義距離用途:計算兩個向量的自定義距離確定了樣品或變量間的距離或相似系數(shù)后,就要對樣品或變量