spss使用教程聚類分析與判別分析新ppt課件.ppt

spss使用教程聚類分析與判別分析新ppt課件.ppt

ID:59414727

大?。?.20 MB

頁數(shù):101頁

時間:2020-09-19

spss使用教程聚類分析與判別分析新ppt課件.ppt_第1頁
spss使用教程聚類分析與判別分析新ppt課件.ppt_第2頁
spss使用教程聚類分析與判別分析新ppt課件.ppt_第3頁
spss使用教程聚類分析與判別分析新ppt課件.ppt_第4頁
spss使用教程聚類分析與判別分析新ppt課件.ppt_第5頁
資源描述:

《spss使用教程聚類分析與判別分析新ppt課件.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、本章介紹統(tǒng)計學(xué)中經(jīng)常使用的分類統(tǒng)計分析方法——聚類分析與判別分析。主要內(nèi)容有層次聚類分析、快速聚類分析和判別分析。其中層次聚類分析根據(jù)聚類的對象不同分成Q型聚類和R型聚類。1.聚類分析與判別分析的基本概念統(tǒng)計學(xué)研究這類問題的常用分類統(tǒng)計方法主要有聚類分析(clusteranalysis)與判別分析(discriminantanalysis)。其中聚類分析是統(tǒng)計學(xué)中研究這種“物以類聚”問題的一種有效方法,它屬于統(tǒng)計分析的范疇。聚類分析的實質(zhì)是建立一種分類方法,它能夠?qū)⒁慌鷺颖緮?shù)據(jù)按照他們在性質(zhì)上的親密程度在沒有先驗知識的情況下自動進行分類。這里

2、所說的類就是一個具有相似性的個體的集合,不同類之間具有明顯的區(qū)別。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。因此我們說聚類分析是一種探索性的分析方法。對個案的聚類分析類似于判別分析,都是將一些觀察個案進行分類。聚類分析時,個案所屬的群組特點還未知。也就是說,在聚類分析之前,研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得知。變量的聚類分析類似于因素分

3、析。兩者都可用于辨別變量的相關(guān)組別。變量的聚類分析采用層次式的判別方式,根據(jù)個別變量之間的親疏程度逐次進行聚類。聚類分析的方法,主要有兩種,一種是“快速聚類分析方法”(K-MeansClusterAnalysis),另一種是“層次聚類分析方法”(HierarchicalClusterAnalysis)。如果觀察值的個數(shù)多或文件非常龐大(通常觀察值在200個以上),則宜采用快速聚類分析方法。因為觀察值數(shù)目巨大,層次聚類分析的兩種判別圖形會過于分散,不易解釋。判別分析是一種有效的對個案進行分類分析的方法。和聚類分析不同的是,判別分析時,組別的特征

4、已知。如銀行為了對貸款進行管理,需要預(yù)測哪些類型的客戶可能不會按時歸還貸款。已知過去幾年中,900個客戶的貸款歸還信譽度,據(jù)此可以將客戶分成兩組:可靠客戶和不可靠客戶。再通過收集客戶的一些資料,如年齡、工資收入、教育程度、存款等,將這些資料作為自變量。通過判別分析,建立判別函數(shù)。那么,如果有150個新的客戶提交貸款請求,就可以利用創(chuàng)建好的判別函數(shù),對新的客戶進行分析,從而判斷新的客戶是屬于可靠客戶類,還是不可靠客戶類。2層次聚類分析中的Q型聚類層次聚類分析是根據(jù)觀察值或變量之間的親疏程度,將最相似的對象結(jié)合在一起,以逐次聚合的方式(Agglo

5、merativeClustering),將觀察值分類,直到最后所有樣本都聚成一類。層次聚類分析有兩種形式,一種是對樣本(個案)進行分類,稱為Q型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析;另一種是對研究對象的觀察變量進行分類,稱為R型聚類。它使具有共同特征的變量聚在一起,以便從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數(shù)。定義:層次聚類分析中的Q型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析。2.1統(tǒng)計學(xué)上的定義和計算公式層次聚類分析中,測量樣本之間的親疏程度是關(guān)鍵。聚類的時候會

6、涉及到兩種類型親疏程度的計算:一種是樣本數(shù)據(jù)之間的親疏程度,一種是樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度。樣本數(shù)據(jù)之間的親疏程度主要通過樣本之間的距離、樣本間的相關(guān)系數(shù)來度量。樣本若有k個變量,則可以將樣本看成是一個k維的空間的一個點,樣本和樣本之間的距離就是k維空間點和點之間的距離,這反映了樣本之間的親疏程度。聚類時,距離相近的樣本屬于一個類,距離遠(yuǎn)的樣本屬于不同類。1.連續(xù)變量的樣本距離測量方法(1)歐氏距離(EuclideanDistance)兩個樣本之間的歐氏距離是樣本各個變量值之差的平方和的平方根,計算公式為(2)歐氏距離平方(S

7、quaredEuclideanDistance)兩個樣本之間的歐氏距離平方是各樣本每個變量值之差的平方和,計算公式為(3)Chebychev距離兩個樣本之間的Chebychev距離是各樣本所有變量值之差絕對值中的最大值,計算公式為(4)Block距離兩個樣本之間的Block距離是各樣本所有變量值之差絕對值的總和,計算公式為(5)Minkowski距離兩個樣本之間的Minkowski距離是各樣本所有變量值之差絕對值的p次方的總和,再求p次方根。計算公式為(6)Customized距離(用戶自定義距離)兩個樣本之間的Customized距離是各樣

8、本所有變量值之差絕對值的p次方的總和,再求q次方根。計算公式為連續(xù)變量親疏程度的度量,除了上面的各種距離外,還可以計算其他統(tǒng)計指標(biāo)。如Pearson相關(guān)系數(shù)、Sos

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。