聚類分析和判別分析

ID：39646509

大小：254.00 KB

頁數(shù)：30頁

時間：2019-07-08

資源描述：

《聚類分析和判別分析》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第8章聚類分析和判別分析俗話說“物以類聚，人以群分”，在現(xiàn)實生活中，為了更好的認識事物，人們往往需要根據(jù)事物的屬性對事物進行分類，分類是人類認識客觀世界的一種重要方法。在社會生活的各個方面和科學(xué)研究的各個領(lǐng)域都存在著大量的分類問題。在實際生活中經(jīng)常需要使用聚類分析對事物進行分類，在總體類別已知時需要使用判別分析對研究對象進行歸類。在SPSS中其菜單打開方式為：選擇“分析”“分類”命令，打開如圖所示的“分類”菜單。8.1聚類分析基本原理聚類分析作為一種重要的分類方法，其實質(zhì)在于通過研究對象之間的親疏關(guān)系將相似的對象劃分為一類，不相似的對象劃分到不同的類別當(dāng)中。

2、在本節(jié)中將介紹聚類分析的概念、計算方法和聚類結(jié)果的評價等。8.1.1聚類分析簡介聚類分析（ClusterAnalysis）是根據(jù)事物本身的特征通過統(tǒng)計方法對事物進行分類的多元分析方法，可以通過數(shù)據(jù)建模達到簡化數(shù)據(jù)的目的。聚類分析也稱為分類分析、數(shù)值分類或集群分析等。根據(jù)分類對象的不同，聚類分析可分為樣本聚類和變量聚類兩種。8.1.2聚類分析的計算在聚類分析過程中，需要區(qū)分為不同的類，事物是怎樣劃分到不同的類別當(dāng)中的呢？判斷不同事物是否歸于一類依據(jù)的是事物之間的相似性。事物相似性的度量標(biāo)準(zhǔn)一般有兩種：距離和相似性系數(shù)，距離一般用來度量樣本之間的相似性，而相似性系

3、數(shù)一般是用來度量變量之間的相似性。1．距離距離的計算根據(jù)觀測指標(biāo)數(shù)據(jù)類型的不同可以分為兩種情況：如果觀測指標(biāo)是非連續(xù)數(shù)據(jù)，需要采用卡方分析等計算方法；如果觀測值標(biāo)是連續(xù)數(shù)據(jù)，則可以采用以下幾種算法：（1）明氏距離（2）馬氏距離（3）蘭氏距離（4）自定義距離2．相似性系數(shù)前面提到，聚類分析不僅可以對樣本進行聚類，而且還可以對變量進行聚類，當(dāng)對變量進行聚類時，考察變量之間關(guān)系的指標(biāo)一般采用相似性系數(shù)來表示。相似性系數(shù)是描述測量指標(biāo)之間相關(guān)程度的指標(biāo)，取值范圍為[-1,1]，相似系數(shù)越大，變量之間的相似性就越高。根據(jù)研究目的的不同，有時只需要考察相關(guān)系數(shù)絕對值的大小

4、，有時還要考慮到相關(guān)的方向，即相關(guān)系數(shù)的正負。聚類時，相似的變量歸入一類，不相似的變量歸到不同的類。相似性系數(shù)的計算方法常見的有積差相關(guān)系數(shù)和夾角余弦等。積差相關(guān)系數(shù)：8.1.3聚類結(jié)果的評價聚類分析是一個探索性的過程，在使用聚類分析過程中，除了要根據(jù)不同的數(shù)據(jù)類型選擇其最適合的聚類方法外，還往往需要結(jié)合數(shù)據(jù)結(jié)構(gòu)和對聚類樣本或變量的先驗經(jīng)驗，并且不斷探索和嘗試才能得到比較好的聚類結(jié)果。這里簡要介紹一些判斷類別數(shù)量是否合理的標(biāo)準(zhǔn)和最終分類應(yīng)該符合的要求作為參考。1．規(guī)定一個閾值T2．查看樣本的散點圖3．使用統(tǒng)計量8.2.1二階聚類的基本原理顧名思義，二階聚類是指

5、聚類過程是分為兩步進行的，故又稱為兩步聚類。二階聚類發(fā)展較晚，但由于其能同時處理連續(xù)數(shù)據(jù)和離散數(shù)據(jù)，同時還可以自動確定最佳聚類個數(shù)，加上處理速度快等優(yōu)點，使它從一經(jīng)提出就在多個領(lǐng)域得到推廣，并受到越來越多用戶的青睞。二階聚類主要分為以下兩個步驟：（1）預(yù)分類（2）正式聚類8.2.2二階聚類的操作過程在SPSS中二階聚類的操作過程如下：（1）打開或建立數(shù)據(jù)文件。（2）選擇“分析”“分類”“兩步聚類”命令，打開“二階聚類分析”對話框，如圖所示。（3）選擇變量（4）選擇距離度量標(biāo)準(zhǔn)（5）連續(xù)變量計數(shù)（6）設(shè)定聚類數(shù)量（7）選擇聚類準(zhǔn)則（8）選項設(shè)置（9）輸出設(shè)置

6、（10）設(shè)置完成后，單擊“確定”按鈕，執(zhí)行操作，輸出結(jié)果。8.2.3實例分析：普通高等學(xué)校（機構(gòu)）教職工隊伍構(gòu)成（1）教師隊伍的構(gòu)成影響和制約著高等教育的質(zhì)量和發(fā)展?，F(xiàn)準(zhǔn)備根據(jù)2008年中國部分省份普通高等學(xué)校（機構(gòu)）教職工隊伍構(gòu)成情況對這些地區(qū)進行分類。收集到的資料包括：正高級職稱人數(shù)（單位：人）、副高級職稱人數(shù)、中級職稱人數(shù)、初級職稱人數(shù)和無職稱人數(shù)。1．操作過程2．結(jié)果分析8.3K-均值聚類分析K-均值聚類（K-Means-Cluster）是一種快速樣本聚類方法，在聚類個數(shù)已知的情況下，特別適合于對大樣本數(shù)據(jù)進行分析。在本節(jié)將介紹K-均值聚類的基本原理和

7、操作過程。8.3.1K-均值聚類的基本原理K-均值聚類（K-Means-Cluster）又稱快速樣本聚類或逐步樣本聚類，是先將樣本數(shù)據(jù)進行初始分類，然后根據(jù)中心點逐步調(diào)整，直至得到最終分類。這種聚類方法具有計算量大、對系統(tǒng)要求低、占用內(nèi)存少、處理速度快的特點，因此特別適合處理大樣本數(shù)據(jù)。但是這種聚類方法只適于對樣本的聚類，而不能對變量進行聚類。K-均值聚類分析的基本步驟如下：（1）確定聚類數(shù)量。（2）確定初始類中心坐標(biāo)。（3）根據(jù)距離最近原則進行分類。（4）重新計算所形成的各個新類別的中心點坐標(biāo)，并重新歸類。（5）重復(fù)上一過程，直至達到收斂標(biāo)準(zhǔn)。8.3.2K-

8、均值聚類的操作過程前面介紹了K-均值聚

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 30



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

聚類分析和判別分析

聚類分析和判別分析

相關(guān)文章

相關(guān)標(biāo)簽