資源描述:
《《用SPSS作聚類分析》PPT課件》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、3.3用SPSS作聚類分析常言道:“物以類聚”,對事物分門別類進行研究,有利于我們做出正確的判斷。日常生活中,我們不自覺地用定性方法將人分為“好人”、“壞人”;按熟悉程度分為“朋友”、“熟人”、“陌生人”等等。數理統計中的數值分類有兩種問題:判別分析:已知分類情況,將未知個體歸入正確類別聚類分析:分類情況未知,對數據結構進行分類通過分類,有利于我們抓住重點,從總體上去把握事物,找出解決問題的方法。例如將股票進行分類,可以為我們投資提供參考。一、聚類分析(ClusterAnalysis)簡介聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技
2、術。要做聚類分析,首先得按照我們聚類的目的,從對象中提取出能表現這個目的的特征指標;然后根據親疏程度進行分類。聚類分析根據分類對象的不同可分為Q型和R型兩大類Q型是對樣本進行分類處理,其作用在于:能利用多個變量對樣本進行分類分類結果直觀,聚類譜系圖能明確、清楚地表達其數值分類結果所得結果比傳統的定性分類方法更細致、全面、合理二、聚類對象R型是對變量進行分類處理,其作用在于:可以了解變量間及變量組合間的親疏關系可以根據變量的聚類結果及它們之間的關系,選擇主要變量進行回歸分析或Q型聚類分析聚類的主要過程一般可分為如下四個步驟:數據預處理(標準化)構造關系矩陣(親疏關系的描述)聚類(根據
3、不同方法進行分類)確定最佳分類(類別數)以下我們結合實際例子分步進行討論。三、聚類過程與方法為什么要做數據變換→指標變量的量綱不同或數量級相差很大,為了使這些數據能放到一起加以比較,常需做變換。在SPSS中如何選擇標準化方法:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對話框中進行如下選擇1.數據預處理(標準化)例、下表給出了1982年全國28個省、市、自治區(qū)農民家庭收支情況,有六個指標,是利用調查資料進行聚類分析,為經濟發(fā)展決策提供依據。(詳見文件1982“農民生活消費聚類.sav”)從TransformValues
4、框中點擊向下箭頭,將出現如下可選項,從中選一即可:常用標準化方法(選項說明):None:不進行標準化,這是系統默認值ZScores:標準化變換為了便于后面的說明,作如下假設:均值表示為標準差表示為所有樣本表示為極差表示為作用:變換后的數據均值為0,標準差為1,消去了量綱的影響;當抽樣樣本改變時,它仍能保持相對穩(wěn)定性。Range–1to1:極差標準化變換作用:變換后的數據均值為0,極差為1,且
5、xij*
6、<1,消去了量綱的影響;在以后的分析計算中可以減少誤差的產生。Maximummagnitudeof1作用:變換后的數據最大值為1。Range0to1(極差正規(guī)化變換/規(guī)格化變換)作用
7、:變換后的數據最小為0,最大為1,其余在區(qū)間[0,1]內,極差為1,無量綱。Meanof1作用:變換后的數據均值為1。Standarddeviationof1作用:變換后的數據標準差為1。在SPSS中如何選擇測度:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對話框中進行如下選擇2.構造關系矩陣描述變量或樣本的親疏程度的數量指標有兩種:相似系數——性質越接近的樣品,相似系數越接近于1或-1;彼此無關的樣品相似系數則接近于0,聚類時相似的樣品聚為一類距離——將每一個樣品看作m維空間的一個點,在這m維空間中定義距離,距離較近
8、的點歸為一類。相似系數與距離有40多種,但常用的只是少數從Measure框中點擊Interval項的向下箭頭,將出現如左可選項,從中選一即可。常用測度(選項說明):Euclideandistance:歐氏距離(二階Minkowski距離)SquaredEucideandistance:平方歐氏距離用途:聚類分析中用得最廣泛的距離但與各變量的量綱有關,未考慮指標間的相關性,也未考慮各變量方差的不同用途:聚類分析中用得最廣泛的距離Cosine:夾角余弦(相似性測度)用途:計算兩個向量在原點處的夾角余弦。當兩夾角為0o時,取值為1,說明極相似;當夾角為90o時,取值為0,說明兩者不相關。
9、取值范圍:0~1Pearsoncorrelation:皮爾遜相關系數Chebychev:切比雪夫距離用途:計算兩個向量的皮爾遜相關系數用途:計算兩個向量的切比雪夫距離Block:絕對值距離(一階Minkowski度量)(又稱Manhattan度量或網格度量)用途:計算兩個向量的絕對值距離Minkowski:明科夫斯基距離用途:計算兩個向量的明科夫斯基距離Customized:自定義距離用途:計算兩個向量的自定義距離確定了樣品或變量間的距離或相似系數后,就要對樣品或變量