應(yīng)用統(tǒng)計學(xué)課件.ppt

應(yīng)用統(tǒng)計學(xué)課件.ppt

ID:58434048

大?。?86.50 KB

頁數(shù):91頁

時間:2020-09-07

應(yīng)用統(tǒng)計學(xué)課件.ppt_第1頁
應(yīng)用統(tǒng)計學(xué)課件.ppt_第2頁
應(yīng)用統(tǒng)計學(xué)課件.ppt_第3頁
應(yīng)用統(tǒng)計學(xué)課件.ppt_第4頁
應(yīng)用統(tǒng)計學(xué)課件.ppt_第5頁
資源描述:

《應(yīng)用統(tǒng)計學(xué)課件.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、基本思想聚類分析的基本思想:對所研究的樣品或指標(biāo)(變量)之間存在著程度不同的相似性(或親疏關(guān)系)。于是根據(jù)一批樣品的多個指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間的相似程度的統(tǒng)計量。以這些統(tǒng)計量為分類的依據(jù),把一些相似程度較大的樣品(或指標(biāo))聚合為一類。并把另一些彼此之間相似程度較大的樣品(或指標(biāo))聚合為另一類。從而按相似程度的大小,把關(guān)系密切的樣品聚合到一個小的分類單位,關(guān)系疏遠(yuǎn)的樣品聚合到一個大的分類單位,直到把所有的樣品(或指標(biāo))都聚合完畢。把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng)。再把整個分類系統(tǒng)畫成一張分群圖(又稱譜系圖),用它把所有樣品(或指標(biāo))間的

2、親疏關(guān)系表示出來。聚類分析和判別分析的區(qū)別應(yīng)該指出,聚類分析和判別分析都是研究事物分類的基本方法,但二者有著重要的區(qū)別。聚類分析把分類對象按一定規(guī)則劃分成若干類型,這些類型不是事先給定的。而判別分析則事先已知類型的劃分.通常每一類都有一個訓(xùn)練樣本,據(jù)此得出判別函數(shù)或判別準(zhǔn)則,從而對新樣品的歸屬作出判別。與多元分析的其它方法相比,聚類分析的方法很粗糙,理論也尚不完善。但由于它的應(yīng)用取得很大成功,和回歸分析和判別分析一起被稱為多元分析的三大實用方法。本章重點介紹一些常用的分類統(tǒng)計量和目前較為廣泛使用的譜系聚類方法。最后,簡要介紹一種模糊聚類法?!?.1分類統(tǒng)計量聚類分析不僅可

3、以對樣品進(jìn)行分類,也可以對指標(biāo)(變量)進(jìn)行分類。設(shè)有個樣品,每個樣品有個指標(biāo)。對觀察值,可根據(jù)間的某種相似性,對個樣品進(jìn)行分類。例如某班有個學(xué)生,可根據(jù)每個學(xué)生的各科考試成績把學(xué)生分為優(yōu)、良、中和差四類。另一方面,也可對指標(biāo)進(jìn)行分類。即根據(jù)某種相似性,把這個指標(biāo)進(jìn)行分類。例如在服裝設(shè)計中,往往要測量很多的指標(biāo)(變量),如身高,上體長,臂長,肩寬,胸圍等。對這些指標(biāo),大致可分為兩大類。一類反映人的高矮,另一類反映人的胖瘦。分類統(tǒng)計量對樣品進(jìn)行分類的方法稱為Q型聚類法。由于每個樣品可看成是p維空間的一個點,n個樣品就組成p維空間中的n個點。這時,自然可以用距離來度量樣品之間的

4、相似性。而對指標(biāo)(變量)進(jìn)行分類的方法,稱為R型聚類法。指標(biāo)(變量)間的某種相似性,常用“相似系數(shù)”來描述。下面介紹幾種常用的距離和相似系數(shù)。4.1.1樣品間的“相似性”度量—距離設(shè)每個樣品有p個指標(biāo),觀察值記為(4.1.1)每個樣品可看成是p維空間的一個點。于是,可用各點之間的距離來衡量各樣品點之間的接近程度。樣品和之間的距離,一般應(yīng)滿足如下的三個條件:(ⅰ),且時當(dāng)且僅當(dāng);(ⅱ);(ⅲ);有時所用的距離不滿足(ⅲ),但在廣義的角度上仍稱為距離。常用的距離有如下幾種:1.明考斯基(Minkowski)距離(明氏距離)(4.1.2)明氏距離有如下三種特殊形式。2.絕對距離

5、(m=1)(4.1.3)3.歐氏距離(m=2)(4.1.4)4.切比雪夫(Chebychev)距離(m=∞)(4.1.5)數(shù)據(jù)的標(biāo)準(zhǔn)化方法當(dāng)各指標(biāo)的觀察值相差很大時,則不應(yīng)直接采用明氏距離。這時應(yīng)對每個指標(biāo)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后對標(biāo)準(zhǔn)化數(shù)據(jù)計算距離。令(4.1.6)(4.1.8)(4.1.7)分別表示第個指標(biāo)的樣本均值、樣本方差和樣本極差。標(biāo)準(zhǔn)化方法或極差標(biāo)準(zhǔn)化(4.1.9)(4.1.10)當(dāng)考慮這些指標(biāo)(變量)之間的相關(guān)性時,可采用方差加權(quán)距離或馬氏距離。數(shù)據(jù)的標(biāo)準(zhǔn)化方法有標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化5.方差加權(quán)距離(4.1.11)其中為第個指標(biāo)的方差。6.馬氏(Mahalanobis

6、)距離其中為維向量的協(xié)方差矩陣。當(dāng)和未知時,可用作為的估計,而用作為的估計,記,則(4.1.12)其中例4.1.1歐洲各國的語言有許多相似之處,有的十分相近。為了研究這些語言之間的歷史關(guān)系,對數(shù)字1,2,…,10的單詞作比較,表4.1.1列出了英語(E),挪威語(N),丹麥語(Da),荷蘭語(Du),德語(G),法語(Fr),西班牙語(S),意大利語(I),波蘭語(P),匈牙利語(H)和芬蘭語(Fi)11種語言的單詞1,2,…,10的拼寫方法,希望計算這11種語言之間的距離。表4.1.111種歐洲語言的數(shù)詞選擇適用的距離在聚類分析中通常要結(jié)合實際問題來選擇適用的距離,有時

7、應(yīng)根據(jù)實際問題定義新的距離,下面的例子說明了這一點。顯然,本例無法直接用上述公式來計算距離。但可以發(fā)現(xiàn)前三種文字(英、挪、丹)很相似,特別是每個單詞的第一個字母。于是可以用10個數(shù)詞中第一個字母不同的個數(shù)來定義兩種語言之間的距離。例如英語和挪威語中只有1和8的第一個字母不同,則它們之間的距離為2。這11種語言兩兩之間的距離列于表4.1.2。表4.1.211種歐洲語言之間的距離4.1.2變量間的“關(guān)聯(lián)性”度量—相似系數(shù)越接近1,說明指標(biāo)(變量)與的關(guān)系越密切。用表示的個觀察值()。常用的相似系數(shù)有以下幾種:聚類分析方法不僅可以樣

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。