統(tǒng)計學(xué)11聚類分析和判別分析

統(tǒng)計學(xué)11聚類分析和判別分析

ID:43241947

大小:1.94 MB

頁數(shù):73頁

時間:2019-10-07

統(tǒng)計學(xué)11聚類分析和判別分析_第1頁
統(tǒng)計學(xué)11聚類分析和判別分析_第2頁
統(tǒng)計學(xué)11聚類分析和判別分析_第3頁
統(tǒng)計學(xué)11聚類分析和判別分析_第4頁
統(tǒng)計學(xué)11聚類分析和判別分析_第5頁
資源描述:

《統(tǒng)計學(xué)11聚類分析和判別分析》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、第11章聚類分析與判別分析聚類分析判別分析中央財經(jīng)大學(xué)統(tǒng)計學(xué)院聚類分析引言相似性度量系統(tǒng)聚類K-均值聚類聚類分析的SPSS實(shí)現(xiàn)中央財經(jīng)大學(xué)統(tǒng)計學(xué)院引言物以類聚,人以群分。例:中國的民族分成若干類,上市公司分類,等等對于一個數(shù)據(jù)集,人們既可以對變量(指標(biāo))進(jìn)行分類(稱為R型聚類),也可以對觀測值(個案,樣品)來分類(稱為Q型聚類)。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。3中央財經(jīng)大學(xué)統(tǒng)計學(xué)院例:哪些少數(shù)民族的生存狀況更接近?民族原始數(shù)據(jù)標(biāo)化死亡率(‰)出生時期望壽命(歲)滿族5.8070.59朝鮮族7.4467.14蒙古族8

2、.1165.48維吾爾族10.2158.88藏族9.5159.24哈薩克族9.8160.47*標(biāo)化死亡率是根據(jù)相同的人口年齡結(jié)構(gòu)(標(biāo)準(zhǔn)組)計算的,因而更具可比性。4中央財經(jīng)大學(xué)統(tǒng)計學(xué)院聚類分析需要解決的一個問題如何衡量樣本點(diǎn)之間的距離或相似程度?距離,主要用于樣品(觀測)間相似性度量相似系數(shù),主要用于變量間相似性度量5中央財經(jīng)大學(xué)統(tǒng)計學(xué)院常用的距離的計算方法設(shè)每個樣品有p個指標(biāo)(變量)。把n個樣品看成p維空間中的n個點(diǎn),則兩個樣品間相似程度就可用p維空間中的兩點(diǎn)距離公式來度量。兩點(diǎn)距離公式可以從不同角度進(jìn)行定義。當(dāng)變量的測量值

3、相差懸殊時,要先進(jìn)行標(biāo)準(zhǔn)化,以消除計量單位對計算結(jié)果的影響。6中央財經(jīng)大學(xué)統(tǒng)計學(xué)院常用的距離的計算方法歐氏距離(Euclidean)平方歐氏距離SquaredEuclidean切比雪夫距離(Chebychev)7中央財經(jīng)大學(xué)統(tǒng)計學(xué)院明考夫斯基距離(明氏距離)**按q的取值不同可以包括多種距離計算方法。例如:8中央財經(jīng)大學(xué)統(tǒng)計學(xué)院相似系數(shù)的計算方法變量間的相似性可以從它們的方向趨同性或“相關(guān)性”進(jìn)行考察,“夾角余弦法”和“相關(guān)系數(shù)”兩種主要度量方法,統(tǒng)稱為相似系數(shù)。(1)夾角余弦*兩變量Xi與Xj看作p維空間的兩個向量,這兩個向

4、量間的夾角余弦可用下式進(jìn)行計算顯然,∣cos?ij∣?1。9中央財經(jīng)大學(xué)統(tǒng)計學(xué)院相似系數(shù)的計算方法(2)Pearson相關(guān)系數(shù)Pearson相關(guān)系數(shù)經(jīng)常用來度量變量間的相似性。變量Xi與Xj的Pearson相關(guān)系數(shù)定義為顯然也有,∣rij∣?1。10中央財經(jīng)大學(xué)統(tǒng)計學(xué)院系統(tǒng)聚類法(分層聚類)hierarchicalcluster開始時,有多少樣本點(diǎn)就是多少類。第一步先把最近的兩類(點(diǎn))合并成一類;然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來合并的類,距離就越遠(yuǎn)。11中央財經(jīng)

5、大學(xué)統(tǒng)計學(xué)院需要解決的新問題:如何計算類與類之間的距離?最短距離法最長距離法重心法Ward法(離差平方和法)等等12中央財經(jīng)大學(xué)統(tǒng)計學(xué)院最短距離S1S3S2S4S5最短距離13中央財經(jīng)大學(xué)統(tǒng)計學(xué)院最長距離S1S3S4S514中央財經(jīng)大學(xué)統(tǒng)計學(xué)院??重心法(Centroidclustering):均值點(diǎn)的距離15中央財經(jīng)大學(xué)統(tǒng)計學(xué)院離差平方和法:合并離差平方和變動最小的兩個類1,24,57,916中央財經(jīng)大學(xué)統(tǒng)計學(xué)院紅綠(1,2,7,9)44.75離差平方和增加44.75-2.5=42.25黃綠(4,5,7,9)14.75離差平

6、方和增加14.75-2.5=12.25黃紅(1,2,4,5)10離差平方和增加10-1=9故按該方法黃紅首先連接。離差平方和法:合并離差平方和變動最小的兩個類17中央財經(jīng)大學(xué)統(tǒng)計學(xué)院6個不同民族的聚類:數(shù)據(jù)表民族原始數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)化死亡率(‰)出生時期望壽命(歲)標(biāo)化死亡率(‰)出生時期望壽命(歲)滿族5.8070.59-1.591.44朝鮮族7.4467.14-0.620.73蒙古族8.1165.48-0.220.38維吾爾族10.2158.881.03-0.99藏族9.5159.240.61-0.91哈薩克族9.8160

7、.470.79-0.6618中央財經(jīng)大學(xué)統(tǒng)計學(xué)院各民族之間的歐氏距離滿族朝鮮族蒙古族維吾爾族藏族哈薩克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}滿族G1={S1}0朝鮮族G2={S2}1.2080蒙古族G3={S3}1.7320.5260維吾爾族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈薩克族G6={S6}3.1731.9731.4480.4060.311019中央財經(jīng)大學(xué)統(tǒng)計學(xué)院最短距離法舉例(1)首先合并G5、G6

8、,再計算新類與其他類之間的距離。滿族朝鮮族蒙古族維吾爾族藏族哈薩克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}滿族G1={S1}0朝鮮族G2={S2}1.2080蒙古族G3={S3}1.7320.5260維吾爾族G4={S4}3.57

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。