資源描述:
《聚類分析和判別分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第8章聚類分析和判別分析俗話說“物以類聚,人以群分”,在現(xiàn)實生活中,為了更好的認識事物,人們往往需要根據(jù)事物的屬性對事物進行分類,分類是人類認識客觀世界的一種重要方法。在社會生活的各個方面和科學(xué)研究的各個領(lǐng)域都存在著大量的分類問題。在實際生活中經(jīng)常需要使用聚類分析對事物進行分類,在總體類別已知時需要使用判別分析對研究對象進行歸類。在SPSS中其菜單打開方式為:選擇“分析”“分類”命令,打開如圖所示的“分類”菜單。8.1聚類分析基本原理聚類分析作為一種重要的分類方法,其實質(zhì)在于通過研究對象之間的親疏關(guān)系將相似的對象劃分為一類,不相似的對象劃分到不同的類別當中。在本節(jié)
2、中將介紹聚類分析的概念、計算方法和聚類結(jié)果的評價等。8.1.1聚類分析簡介聚類分析(ClusterAnalysis)是根據(jù)事物本身的特征通過統(tǒng)計方法對事物進行分類的多元分析方法,可以通過數(shù)據(jù)建模達到簡化數(shù)據(jù)的目的。聚類分析也稱為分類分析、數(shù)值分類或集群分析等。根據(jù)分類對象的不同,聚類分析可分為樣本聚類和變量聚類兩種。8.1.2聚類分析的計算在聚類分析過程中,需要區(qū)分為不同的類,事物是怎樣劃分到不同的類別當中的呢?判斷不同事物是否歸于一類依據(jù)的是事物之間的相似性。事物相似性的度量標準一般有兩種:距離和相似性系數(shù),距離一般用來度量樣本之間的相似性,而相似性系數(shù)一般是用來
3、度量變量之間的相似性。1.距離距離的計算根據(jù)觀測指標數(shù)據(jù)類型的不同可以分為兩種情況:如果觀測指標是非連續(xù)數(shù)據(jù),需要采用卡方分析等計算方法;如果觀測值標是連續(xù)數(shù)據(jù),則可以采用以下幾種算法:(1)明氏距離(2)馬氏距離(3)蘭氏距離(4)自定義距離2.相似性系數(shù)前面提到,聚類分析不僅可以對樣本進行聚類,而且還可以對變量進行聚類,當對變量進行聚類時,考察變量之間關(guān)系的指標一般采用相似性系數(shù)來表示。相似性系數(shù)是描述測量指標之間相關(guān)程度的指標,取值范圍為[-1,1],相似系數(shù)越大,變量之間的相似性就越高。根據(jù)研究目的的不同,有時只需要考察相關(guān)系數(shù)絕對值的大小,有時還要考慮到相
4、關(guān)的方向,即相關(guān)系數(shù)的正負。聚類時,相似的變量歸入一類,不相似的變量歸到不同的類。相似性系數(shù)的計算方法常見的有積差相關(guān)系數(shù)和夾角余弦等。積差相關(guān)系數(shù):8.1.3聚類結(jié)果的評價聚類分析是一個探索性的過程,在使用聚類分析過程中,除了要根據(jù)不同的數(shù)據(jù)類型選擇其最適合的聚類方法外,還往往需要結(jié)合數(shù)據(jù)結(jié)構(gòu)和對聚類樣本或變量的先驗經(jīng)驗,并且不斷探索和嘗試才能得到比較好的聚類結(jié)果。這里簡要介紹一些判斷類別數(shù)量是否合理的標準和最終分類應(yīng)該符合的要求作為參考。1.規(guī)定一個閾值T2.查看樣本的散點圖3.使用統(tǒng)計量8.2.1二階聚類的基本原理顧名思義,二階聚類是指聚類過程是分為兩步進行的
5、,故又稱為兩步聚類。二階聚類發(fā)展較晚,但由于其能同時處理連續(xù)數(shù)據(jù)和離散數(shù)據(jù),同時還可以自動確定最佳聚類個數(shù),加上處理速度快等優(yōu)點,使它從一經(jīng)提出就在多個領(lǐng)域得到推廣,并受到越來越多用戶的青睞。二階聚類主要分為以下兩個步驟:(1)預(yù)分類(2)正式聚類8.2.2二階聚類的操作過程在SPSS中二階聚類的操作過程如下:(1)打開或建立數(shù)據(jù)文件。(2)選擇“分析”“分類”“兩步聚類”命令,打開“二階聚類分析”對話框,如圖所示。(3)選擇變量(4)選擇距離度量標準(5)連續(xù)變量計數(shù)(6)設(shè)定聚類數(shù)量(7)選擇聚類準則(8)選項設(shè)置(9)輸出設(shè)置(10)設(shè)置完成后,單擊“確定
6、”按鈕,執(zhí)行操作,輸出結(jié)果。8.2.3實例分析:普通高等學(xué)校(機構(gòu))教職工隊伍構(gòu)成(1)教師隊伍的構(gòu)成影響和制約著高等教育的質(zhì)量和發(fā)展?,F(xiàn)準備根據(jù)2008年中國部分省份普通高等學(xué)校(機構(gòu))教職工隊伍構(gòu)成情況對這些地區(qū)進行分類。收集到的資料包括:正高級職稱人數(shù)(單位:人)、副高級職稱人數(shù)、中級職稱人數(shù)、初級職稱人數(shù)和無職稱人數(shù)。1.操作過程2.結(jié)果分析8.3K-均值聚類分析K-均值聚類(K-Means-Cluster)是一種快速樣本聚類方法,在聚類個數(shù)已知的情況下,特別適合于對大樣本數(shù)據(jù)進行分析。在本節(jié)將介紹K-均值聚類的基本原理和操作過程。8.3.1K-均值聚類的基
7、本原理K-均值聚類(K-Means-Cluster)又稱快速樣本聚類或逐步樣本聚類,是先將樣本數(shù)據(jù)進行初始分類,然后根據(jù)中心點逐步調(diào)整,直至得到最終分類。這種聚類方法具有計算量大、對系統(tǒng)要求低、占用內(nèi)存少、處理速度快的特點,因此特別適合處理大樣本數(shù)據(jù)。但是這種聚類方法只適于對樣本的聚類,而不能對變量進行聚類。K-均值聚類分析的基本步驟如下:(1)確定聚類數(shù)量。(2)確定初始類中心坐標。(3)根據(jù)距離最近原則進行分類。(4)重新計算所形成的各個新類別的中心點坐標,并重新歸類。(5)重復(fù)上一過程,直至達到收斂標準。8.3.2K-均值聚類的操作過程前面介紹了K-均值聚