聚類分析和判別分析

聚類分析和判別分析

ID:39646509

大小:254.00 KB

頁數(shù):30頁

時間:2019-07-08

聚類分析和判別分析_第1頁
聚類分析和判別分析_第2頁
聚類分析和判別分析_第3頁
聚類分析和判別分析_第4頁
聚類分析和判別分析_第5頁
資源描述:

《聚類分析和判別分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第8章聚類分析和判別分析俗話說“物以類聚,人以群分”,在現(xiàn)實生活中,為了更好的認識事物,人們往往需要根據(jù)事物的屬性對事物進行分類,分類是人類認識客觀世界的一種重要方法。在社會生活的各個方面和科學(xué)研究的各個領(lǐng)域都存在著大量的分類問題。在實際生活中經(jīng)常需要使用聚類分析對事物進行分類,在總體類別已知時需要使用判別分析對研究對象進行歸類。在SPSS中其菜單打開方式為:選擇“分析”“分類”命令,打開如圖所示的“分類”菜單。8.1聚類分析基本原理聚類分析作為一種重要的分類方法,其實質(zhì)在于通過研究對象之間的親疏關(guān)系將相似的對象劃分為一類,不相似的對象劃分到不同的類別當(dāng)中。

2、在本節(jié)中將介紹聚類分析的概念、計算方法和聚類結(jié)果的評價等。8.1.1聚類分析簡介聚類分析(ClusterAnalysis)是根據(jù)事物本身的特征通過統(tǒng)計方法對事物進行分類的多元分析方法,可以通過數(shù)據(jù)建模達到簡化數(shù)據(jù)的目的。聚類分析也稱為分類分析、數(shù)值分類或集群分析等。根據(jù)分類對象的不同,聚類分析可分為樣本聚類和變量聚類兩種。8.1.2聚類分析的計算在聚類分析過程中,需要區(qū)分為不同的類,事物是怎樣劃分到不同的類別當(dāng)中的呢?判斷不同事物是否歸于一類依據(jù)的是事物之間的相似性。事物相似性的度量標(biāo)準(zhǔn)一般有兩種:距離和相似性系數(shù),距離一般用來度量樣本之間的相似性,而相似性系

3、數(shù)一般是用來度量變量之間的相似性。1.距離距離的計算根據(jù)觀測指標(biāo)數(shù)據(jù)類型的不同可以分為兩種情況:如果觀測指標(biāo)是非連續(xù)數(shù)據(jù),需要采用卡方分析等計算方法;如果觀測值標(biāo)是連續(xù)數(shù)據(jù),則可以采用以下幾種算法:(1)明氏距離(2)馬氏距離(3)蘭氏距離(4)自定義距離2.相似性系數(shù)前面提到,聚類分析不僅可以對樣本進行聚類,而且還可以對變量進行聚類,當(dāng)對變量進行聚類時,考察變量之間關(guān)系的指標(biāo)一般采用相似性系數(shù)來表示。相似性系數(shù)是描述測量指標(biāo)之間相關(guān)程度的指標(biāo),取值范圍為[-1,1],相似系數(shù)越大,變量之間的相似性就越高。根據(jù)研究目的的不同,有時只需要考察相關(guān)系數(shù)絕對值的大小

4、,有時還要考慮到相關(guān)的方向,即相關(guān)系數(shù)的正負。聚類時,相似的變量歸入一類,不相似的變量歸到不同的類。相似性系數(shù)的計算方法常見的有積差相關(guān)系數(shù)和夾角余弦等。積差相關(guān)系數(shù):8.1.3聚類結(jié)果的評價聚類分析是一個探索性的過程,在使用聚類分析過程中,除了要根據(jù)不同的數(shù)據(jù)類型選擇其最適合的聚類方法外,還往往需要結(jié)合數(shù)據(jù)結(jié)構(gòu)和對聚類樣本或變量的先驗經(jīng)驗,并且不斷探索和嘗試才能得到比較好的聚類結(jié)果。這里簡要介紹一些判斷類別數(shù)量是否合理的標(biāo)準(zhǔn)和最終分類應(yīng)該符合的要求作為參考。1.規(guī)定一個閾值T2.查看樣本的散點圖3.使用統(tǒng)計量8.2.1二階聚類的基本原理顧名思義,二階聚類是指

5、聚類過程是分為兩步進行的,故又稱為兩步聚類。二階聚類發(fā)展較晚,但由于其能同時處理連續(xù)數(shù)據(jù)和離散數(shù)據(jù),同時還可以自動確定最佳聚類個數(shù),加上處理速度快等優(yōu)點,使它從一經(jīng)提出就在多個領(lǐng)域得到推廣,并受到越來越多用戶的青睞。二階聚類主要分為以下兩個步驟:(1)預(yù)分類(2)正式聚類8.2.2二階聚類的操作過程在SPSS中二階聚類的操作過程如下:(1)打開或建立數(shù)據(jù)文件。(2)選擇“分析”“分類”“兩步聚類”命令,打開“二階聚類分析”對話框,如圖所示。(3)選擇變量(4)選擇距離度量標(biāo)準(zhǔn)(5)連續(xù)變量計數(shù)(6)設(shè)定聚類數(shù)量(7)選擇聚類準(zhǔn)則(8)選項設(shè)置(9)輸出設(shè)置

6、(10)設(shè)置完成后,單擊“確定”按鈕,執(zhí)行操作,輸出結(jié)果。8.2.3實例分析:普通高等學(xué)校(機構(gòu))教職工隊伍構(gòu)成(1)教師隊伍的構(gòu)成影響和制約著高等教育的質(zhì)量和發(fā)展?,F(xiàn)準(zhǔn)備根據(jù)2008年中國部分省份普通高等學(xué)校(機構(gòu))教職工隊伍構(gòu)成情況對這些地區(qū)進行分類。收集到的資料包括:正高級職稱人數(shù)(單位:人)、副高級職稱人數(shù)、中級職稱人數(shù)、初級職稱人數(shù)和無職稱人數(shù)。1.操作過程2.結(jié)果分析8.3K-均值聚類分析K-均值聚類(K-Means-Cluster)是一種快速樣本聚類方法,在聚類個數(shù)已知的情況下,特別適合于對大樣本數(shù)據(jù)進行分析。在本節(jié)將介紹K-均值聚類的基本原理和

7、操作過程。8.3.1K-均值聚類的基本原理K-均值聚類(K-Means-Cluster)又稱快速樣本聚類或逐步樣本聚類,是先將樣本數(shù)據(jù)進行初始分類,然后根據(jù)中心點逐步調(diào)整,直至得到最終分類。這種聚類方法具有計算量大、對系統(tǒng)要求低、占用內(nèi)存少、處理速度快的特點,因此特別適合處理大樣本數(shù)據(jù)。但是這種聚類方法只適于對樣本的聚類,而不能對變量進行聚類。K-均值聚類分析的基本步驟如下:(1)確定聚類數(shù)量。(2)確定初始類中心坐標(biāo)。(3)根據(jù)距離最近原則進行分類。(4)重新計算所形成的各個新類別的中心點坐標(biāo),并重新歸類。(5)重復(fù)上一過程,直至達到收斂標(biāo)準(zhǔn)。8.3.2K-

8、均值聚類的操作過程前面介紹了K-均值聚

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。