多元統(tǒng)計(jì)分析聚類分析課件.ppt

多元統(tǒng)計(jì)分析聚類分析課件.ppt

ID:57392193

大?。?.49 MB

頁(yè)數(shù):234頁(yè)

時(shí)間:2020-08-15

多元統(tǒng)計(jì)分析聚類分析課件.ppt_第1頁(yè)
多元統(tǒng)計(jì)分析聚類分析課件.ppt_第2頁(yè)
多元統(tǒng)計(jì)分析聚類分析課件.ppt_第3頁(yè)
多元統(tǒng)計(jì)分析聚類分析課件.ppt_第4頁(yè)
多元統(tǒng)計(jì)分析聚類分析課件.ppt_第5頁(yè)
資源描述:

《多元統(tǒng)計(jì)分析聚類分析課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、聚類分析系統(tǒng)聚類分析直觀,易懂??焖倬垲惪焖伲瑒?dòng)態(tài)。有序聚類保序(時(shí)間順序或大小順序)。例對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語(yǔ)言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§1什么是聚類分析我們直觀地來(lái)看,這個(gè)分類是否合理?計(jì)算4號(hào)和6號(hào)得分的離差平方和:(21-20)2+(23-23)2+(22-22)2=1計(jì)算1號(hào)和2號(hào)得分的離差平方和:(28-18)2+(29-23)2+(

2、28-18)2=236計(jì)算1號(hào)和3號(hào)得分的離差平方和為482,由此可見(jiàn)一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒(méi)有被聚在一起。由此,我們的問(wèn)題是如何來(lái)選擇樣品間相似的測(cè)度指標(biāo),如何將有相似性的類連接起來(lái)?聚類分析根據(jù)一批樣品的許多觀測(cè)指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些參數(shù)(指標(biāo))的相似程度,把相似的樣品或指標(biāo)歸為一類,把不相似的歸為一類。例如對(duì)上市公司的經(jīng)營(yíng)業(yè)績(jī)進(jìn)行分類;根據(jù)經(jīng)濟(jì)信息和市場(chǎng)行情,客觀地對(duì)不同商品、不同用戶及時(shí)地進(jìn)行分類。例如當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指

3、標(biāo)聚為一類,從而達(dá)到簡(jiǎn)化指標(biāo)體系的目的。思考:樣本點(diǎn)之間按什么刻畫相似程度思考:樣本點(diǎn)和小類之間按什么刻畫相似程度思考:小類與小類之間按什么來(lái)刻畫相似程度一、變量測(cè)量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。但無(wú)論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來(lái)描述的,變量的類型不同,描述方法也就不同。通常,變量按照測(cè)量它們的尺度不同,可以分為三類。(1)間隔尺度。指標(biāo)度量時(shí)用數(shù)量來(lái)表示,其數(shù)值由測(cè)量或計(jì)數(shù)、統(tǒng)計(jì)得到,如長(zhǎng)度、重量、收入、支出等。一般來(lái)說(shuō),計(jì)數(shù)得到的數(shù)量是離散數(shù)量,測(cè)量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在

4、絕對(duì)零點(diǎn),又稱比例尺度?!?相似系數(shù)和距離(2)順序尺度。指標(biāo)度量時(shí)沒(méi)有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評(píng)價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒(méi)有數(shù)量表示。(3)名義尺度。指標(biāo)度量時(shí)既沒(méi)有數(shù)量表示也沒(méi)有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開(kāi)和關(guān),天氣的有雨和無(wú)雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場(chǎng)交易中的買和賣等都是此類變量。二、數(shù)據(jù)的變換處理所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算

5、把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。1、中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再?gòu)脑紨?shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測(cè)數(shù)據(jù)矩陣為:中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。2、極差規(guī)格化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中

6、的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:經(jīng)過(guò)規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。3、標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換也是對(duì)變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對(duì)每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:經(jīng)過(guò)標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。4.

7、對(duì)數(shù)變換對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)據(jù)的對(duì)數(shù)值作為變換后的新值。即:三、樣品間親疏程度的測(cè)度研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無(wú)關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。