資源描述:
《聚類分析和判別分析》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、第8章聚類分析和判別分析俗話說“物以類聚,人以群分”,在現(xiàn)實生活中,為了更好的認識事物,人們往往需要根據(jù)事物的屬性對事物進行分類,分類是人類認識客觀世界的一種重要方法。在社會生活的各個方面和科學研究的各個領域都存在著大量的分類問題。在實際生活中經(jīng)常需要使用聚類分析對事物進行分類,在總體類別已知時需要使用判別分析對研究對象進行歸類。在SPSS中其菜單打開方式為:選擇“分析”“分類”命令,打開如圖所示的“分類”菜單。8.1聚類分析基本原理聚類分析作為一種重要的分類方法,其實質在于通過研究對象之間的親疏關系將相似的對象劃分為一類,不相似的對象劃分到不同的類別當中。在本節(jié)
2、中將介紹聚類分析的概念、計算方法和聚類結果的評價等。8.1.1聚類分析簡介聚類分析(ClusterAnalysis)是根據(jù)事物本身的特征通過統(tǒng)計方法對事物進行分類的多元分析方法,可以通過數(shù)據(jù)建模達到簡化數(shù)據(jù)的目的。聚類分析也稱為分類分析、數(shù)值分類或集群分析等。根據(jù)分類對象的不同,聚類分析可分為樣本聚類和變量聚類兩種。8.1.2聚類分析的計算在聚類分析過程中,需要區(qū)分為不同的類,事物是怎樣劃分到不同的類別當中的呢?判斷不同事物是否歸于一類依據(jù)的是事物之間的相似性。事物相似性的度量標準一般有兩種:距離和相似性系數(shù),距離一般用來度量樣本之間的相似性,而相似性系數(shù)一般是用來
3、度量變量之間的相似性。1.距離距離的計算根據(jù)觀測指標數(shù)據(jù)類型的不同可以分為兩種情況:如果觀測指標是非連續(xù)數(shù)據(jù),需要采用卡方分析等計算方法;如果觀測值標是連續(xù)數(shù)據(jù),則可以采用以下幾種算法:(1)明氏距離(2)馬氏距離(3)蘭氏距離(4)自定義距離2.相似性系數(shù)前面提到,聚類分析不僅可以對樣本進行聚類,而且還可以對變量進行聚類,當對變量進行聚類時,考察變量之間關系的指標一般采用相似性系數(shù)來表示。相似性系數(shù)是描述測量指標之間相關程度的指標,取值范圍為[-1,1],相似系數(shù)越大,變量之間的相似性就越高。根據(jù)研究目的的不同,有時只需要考察相關系數(shù)絕對值的大小,有時還要考慮到相
4、關的方向,即相關系數(shù)的正負。聚類時,相似的變量歸入一類,不相似的變量歸到不同的類。相似性系數(shù)的計算方法常見的有積差相關系數(shù)和夾角余弦等。積差相關系數(shù):8.1.3聚類結果的評價聚類分析是一個探索性的過程,在使用聚類分析過程中,除了要根據(jù)不同的數(shù)據(jù)類型選擇其最適合的聚類方法外,還往往需要結合數(shù)據(jù)結構和對聚類樣本或變量的先驗經(jīng)驗,并且不斷探索和嘗試才能得到比較好的聚類結果。這里簡要介紹一些判斷類別數(shù)量是否合理的標準和最終分類應該符合的要求作為參考。1.規(guī)定一個閾值T2.查看樣本的散點圖3.使用統(tǒng)計量8.2.1二階聚類的基本原理顧名思義,二階聚類是指聚類過程是分為兩步進行的
5、,故又稱為兩步聚類。二階聚類發(fā)展較晚,但由于其能同時處理連續(xù)數(shù)據(jù)和離散數(shù)據(jù),同時還可以自動確定最佳聚類個數(shù),加上處理速度快等優(yōu)點,使它從一經(jīng)提出就在多個領域得到推廣,并受到越來越多用戶的青睞。二階聚類主要分為以下兩個步驟:(1)預分類(2)正式聚類8.2.2二階聚類的操作過程在SPSS中二階聚類的操作過程如下:(1)打開或建立數(shù)據(jù)文件。(2)選擇“分析”“分類”“兩步聚類”命令,打開“二階聚類分析”對話框,如圖所示。(3)選擇變量(4)選擇距離度量標準(5)連續(xù)變量計數(shù)(6)設定聚類數(shù)量(7)選擇聚類準則(8)選項設置(9)輸出設置(10)設置完成后,單擊“確定
6、”按鈕,執(zhí)行操作,輸出結果。8.2.3實例分析:普通高等學校(機構)教職工隊伍構成(1)教師隊伍的構成影響和制約著高等教育的質量和發(fā)展?,F(xiàn)準備根據(jù)2008年中國部分省份普通高等學校(機構)教職工隊伍構成情況對這些地區(qū)進行分類。收集到的資料包括:正高級職稱人數(shù)(單位:人)、副高級職稱人數(shù)、中級職稱人數(shù)、初級職稱人數(shù)和無職稱人數(shù)。1.操作過程2.結果分析8.3K-均值聚類分析K-均值聚類(K-Means-Cluster)是一種快速樣本聚類方法,在聚類個數(shù)已知的情況下,特別適合于對大樣本數(shù)據(jù)進行分析。在本節(jié)將介紹K-均值聚類的基本原理和操作過程。8.3.1K-均值聚類的基
7、本原理K-均值聚類(K-Means-Cluster)又稱快速樣本聚類或逐步樣本聚類,是先將樣本數(shù)據(jù)進行初始分類,然后根據(jù)中心點逐步調(diào)整,直至得到最終分類。這種聚類方法具有計算量大、對系統(tǒng)要求低、占用內(nèi)存少、處理速度快的特點,因此特別適合處理大樣本數(shù)據(jù)。但是這種聚類方法只適于對樣本的聚類,而不能對變量進行聚類。K-均值聚類分析的基本步驟如下:(1)確定聚類數(shù)量。(2)確定初始類中心坐標。(3)根據(jù)距離最近原則進行分類。(4)重新計算所形成的各個新類別的中心點坐標,并重新歸類。(5)重復上一過程,直至達到收斂標準。8.3.2K-均值聚類的操作過程前面介紹了K-均值聚