應(yīng)用統(tǒng)計(jì)學(xué)課件.ppt

應(yīng)用統(tǒng)計(jì)學(xué)課件.ppt

ID:58434048

大?。?86.50 KB

頁(yè)數(shù):91頁(yè)

時(shí)間:2020-09-07

應(yīng)用統(tǒng)計(jì)學(xué)課件.ppt_第1頁(yè)
應(yīng)用統(tǒng)計(jì)學(xué)課件.ppt_第2頁(yè)
應(yīng)用統(tǒng)計(jì)學(xué)課件.ppt_第3頁(yè)
應(yīng)用統(tǒng)計(jì)學(xué)課件.ppt_第4頁(yè)
應(yīng)用統(tǒng)計(jì)學(xué)課件.ppt_第5頁(yè)
資源描述:

《應(yīng)用統(tǒng)計(jì)學(xué)課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、基本思想聚類分析的基本思想:對(duì)所研究的樣品或指標(biāo)(變量)之間存在著程度不同的相似性(或親疏關(guān)系)。于是根據(jù)一批樣品的多個(gè)指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間的相似程度的統(tǒng)計(jì)量。以這些統(tǒng)計(jì)量為分類的依據(jù),把一些相似程度較大的樣品(或指標(biāo))聚合為一類。并把另一些彼此之間相似程度較大的樣品(或指標(biāo))聚合為另一類。從而按相似程度的大小,把關(guān)系密切的樣品聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的樣品聚合到一個(gè)大的分類單位,直到把所有的樣品(或指標(biāo))都聚合完畢。把不同的類型一一劃分出來,形成一個(gè)由小到大的分類系統(tǒng)。再把整個(gè)分類系統(tǒng)畫成一張分群圖(又稱譜系圖),用它把所有樣品(或指標(biāo))間的

2、親疏關(guān)系表示出來。聚類分析和判別分析的區(qū)別應(yīng)該指出,聚類分析和判別分析都是研究事物分類的基本方法,但二者有著重要的區(qū)別。聚類分析把分類對(duì)象按一定規(guī)則劃分成若干類型,這些類型不是事先給定的。而判別分析則事先已知類型的劃分.通常每一類都有一個(gè)訓(xùn)練樣本,據(jù)此得出判別函數(shù)或判別準(zhǔn)則,從而對(duì)新樣品的歸屬作出判別。與多元分析的其它方法相比,聚類分析的方法很粗糙,理論也尚不完善。但由于它的應(yīng)用取得很大成功,和回歸分析和判別分析一起被稱為多元分析的三大實(shí)用方法。本章重點(diǎn)介紹一些常用的分類統(tǒng)計(jì)量和目前較為廣泛使用的譜系聚類方法。最后,簡(jiǎn)要介紹一種模糊聚類法。§4.1分類統(tǒng)計(jì)量聚類分析不僅可

3、以對(duì)樣品進(jìn)行分類,也可以對(duì)指標(biāo)(變量)進(jìn)行分類。設(shè)有個(gè)樣品,每個(gè)樣品有個(gè)指標(biāo)。對(duì)觀察值,可根據(jù)間的某種相似性,對(duì)個(gè)樣品進(jìn)行分類。例如某班有個(gè)學(xué)生,可根據(jù)每個(gè)學(xué)生的各科考試成績(jī)把學(xué)生分為優(yōu)、良、中和差四類。另一方面,也可對(duì)指標(biāo)進(jìn)行分類。即根據(jù)某種相似性,把這個(gè)指標(biāo)進(jìn)行分類。例如在服裝設(shè)計(jì)中,往往要測(cè)量很多的指標(biāo)(變量),如身高,上體長(zhǎng),臂長(zhǎng),肩寬,胸圍等。對(duì)這些指標(biāo),大致可分為兩大類。一類反映人的高矮,另一類反映人的胖瘦。分類統(tǒng)計(jì)量對(duì)樣品進(jìn)行分類的方法稱為Q型聚類法。由于每個(gè)樣品可看成是p維空間的一個(gè)點(diǎn),n個(gè)樣品就組成p維空間中的n個(gè)點(diǎn)。這時(shí),自然可以用距離來度量樣品之間的

4、相似性。而對(duì)指標(biāo)(變量)進(jìn)行分類的方法,稱為R型聚類法。指標(biāo)(變量)間的某種相似性,常用“相似系數(shù)”來描述。下面介紹幾種常用的距離和相似系數(shù)。4.1.1樣品間的“相似性”度量—距離設(shè)每個(gè)樣品有p個(gè)指標(biāo),觀察值記為(4.1.1)每個(gè)樣品可看成是p維空間的一個(gè)點(diǎn)。于是,可用各點(diǎn)之間的距離來衡量各樣品點(diǎn)之間的接近程度。樣品和之間的距離,一般應(yīng)滿足如下的三個(gè)條件:(ⅰ),且時(shí)當(dāng)且僅當(dāng);(ⅱ);(ⅲ);有時(shí)所用的距離不滿足(ⅲ),但在廣義的角度上仍稱為距離。常用的距離有如下幾種:1.明考斯基(Minkowski)距離(明氏距離)(4.1.2)明氏距離有如下三種特殊形式。2.絕對(duì)距離

5、(m=1)(4.1.3)3.歐氏距離(m=2)(4.1.4)4.切比雪夫(Chebychev)距離(m=∞)(4.1.5)數(shù)據(jù)的標(biāo)準(zhǔn)化方法當(dāng)各指標(biāo)的觀察值相差很大時(shí),則不應(yīng)直接采用明氏距離。這時(shí)應(yīng)對(duì)每個(gè)指標(biāo)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后對(duì)標(biāo)準(zhǔn)化數(shù)據(jù)計(jì)算距離。令(4.1.6)(4.1.8)(4.1.7)分別表示第個(gè)指標(biāo)的樣本均值、樣本方差和樣本極差。標(biāo)準(zhǔn)化方法或極差標(biāo)準(zhǔn)化(4.1.9)(4.1.10)當(dāng)考慮這些指標(biāo)(變量)之間的相關(guān)性時(shí),可采用方差加權(quán)距離或馬氏距離。數(shù)據(jù)的標(biāo)準(zhǔn)化方法有標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化5.方差加權(quán)距離(4.1.11)其中為第個(gè)指標(biāo)的方差。6.馬氏(Mahalanobis

6、)距離其中為維向量的協(xié)方差矩陣。當(dāng)和未知時(shí),可用作為的估計(jì),而用作為的估計(jì),記,則(4.1.12)其中例4.1.1歐洲各國(guó)的語言有許多相似之處,有的十分相近。為了研究這些語言之間的歷史關(guān)系,對(duì)數(shù)字1,2,…,10的單詞作比較,表4.1.1列出了英語(E),挪威語(N),丹麥語(Da),荷蘭語(Du),德語(G),法語(Fr),西班牙語(S),意大利語(I),波蘭語(P),匈牙利語(H)和芬蘭語(Fi)11種語言的單詞1,2,…,10的拼寫方法,希望計(jì)算這11種語言之間的距離。表4.1.111種歐洲語言的數(shù)詞選擇適用的距離在聚類分析中通常要結(jié)合實(shí)際問題來選擇適用的距離,有時(shí)

7、應(yīng)根據(jù)實(shí)際問題定義新的距離,下面的例子說明了這一點(diǎn)。顯然,本例無法直接用上述公式來計(jì)算距離。但可以發(fā)現(xiàn)前三種文字(英、挪、丹)很相似,特別是每個(gè)單詞的第一個(gè)字母。于是可以用10個(gè)數(shù)詞中第一個(gè)字母不同的個(gè)數(shù)來定義兩種語言之間的距離。例如英語和挪威語中只有1和8的第一個(gè)字母不同,則它們之間的距離為2。這11種語言兩兩之間的距離列于表4.1.2。表4.1.211種歐洲語言之間的距離4.1.2變量間的“關(guān)聯(lián)性”度量—相似系數(shù)越接近1,說明指標(biāo)(變量)與的關(guān)系越密切。用表示的個(gè)觀察值()。常用的相似系數(shù)有以下幾種:聚類分析方法不僅可以樣

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。