SPSS作聚類分析.ppt

SPSS作聚類分析.ppt

ID:49423039

大小:745.50 KB

頁(yè)數(shù):30頁(yè)

時(shí)間:2020-02-06

SPSS作聚類分析.ppt_第1頁(yè)
SPSS作聚類分析.ppt_第2頁(yè)
SPSS作聚類分析.ppt_第3頁(yè)
SPSS作聚類分析.ppt_第4頁(yè)
SPSS作聚類分析.ppt_第5頁(yè)
資源描述:

《SPSS作聚類分析.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、3.3用SPSS作聚類分析常言道:“物以類聚”,對(duì)事物分門別類進(jìn)行研究,有利于我們做出正確的判斷。日常生活中,我們不自覺(jué)地用定性方法將人分為“好人”、“壞人”;按熟悉程度分為“朋友”、“熟人”、“陌生人”等等。數(shù)理統(tǒng)計(jì)中的數(shù)值分類有兩種問(wèn)題:判別分析:已知分類情況,將未知個(gè)體歸入正確類別聚類分析:分類情況未知,對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分類通過(guò)分類,有利于我們抓住重點(diǎn),從總體上去把握事物,找出解決問(wèn)題的方法。例如將股票進(jìn)行分類,可以為我們投資提供參考。一、聚類分析(ClusterAnalysis)簡(jiǎn)介聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不

2、同的類的分析技術(shù)。要做聚類分析,首先得按照我們聚類的目的,從對(duì)象中提取出能表現(xiàn)這個(gè)目的的特征指標(biāo);然后根據(jù)親疏程度進(jìn)行分類。聚類分析根據(jù)分類對(duì)象的不同可分為Q型和R型兩大類Q型是對(duì)樣本進(jìn)行分類處理,其作用在于:能利用多個(gè)變量對(duì)樣本進(jìn)行分類分類結(jié)果直觀,聚類譜系圖能明確、清楚地表達(dá)其數(shù)值分類結(jié)果所得結(jié)果比傳統(tǒng)的定性分類方法更細(xì)致、全面、合理二、聚類對(duì)象R型是對(duì)變量進(jìn)行分類處理,其作用在于:可以了解變量間及變量組合間的親疏關(guān)系可以根據(jù)變量的聚類結(jié)果及它們之間的關(guān)系,選擇主要變量進(jìn)行回歸分析或Q型聚類分析聚類的主要過(guò)程一般可分為如下四個(gè)步驟:數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化)構(gòu)造關(guān)系矩陣

3、(親疏關(guān)系的描述)聚類(根據(jù)不同方法進(jìn)行分類)確定最佳分類(類別數(shù))以下我們結(jié)合實(shí)際例子分步進(jìn)行討論。三、聚類過(guò)程與方法為什么要做數(shù)據(jù)變換→指標(biāo)變量的量綱不同或數(shù)量級(jí)相差很大,為了使這些數(shù)據(jù)能放到一起加以比較,常需做變換。在SPSS中如何選擇標(biāo)準(zhǔn)化方法:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對(duì)話框中進(jìn)行如下選擇1.數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化)例、下表給出了1982年全國(guó)28個(gè)省、市、自治區(qū)農(nóng)民家庭收支情況,有六個(gè)指標(biāo),是利用調(diào)查資料進(jìn)行聚類分析,為經(jīng)濟(jì)發(fā)展決策提供依據(jù)。(詳見(jiàn)文件1982“農(nóng)民生活消費(fèi)聚類.

4、sav”)從TransformValues框中點(diǎn)擊向下箭頭,將出現(xiàn)如下可選項(xiàng),從中選一即可:常用標(biāo)準(zhǔn)化方法(選項(xiàng)說(shuō)明):None:不進(jìn)行標(biāo)準(zhǔn)化,這是系統(tǒng)默認(rèn)值ZScores:標(biāo)準(zhǔn)化變換為了便于后面的說(shuō)明,作如下假設(shè):均值表示為標(biāo)準(zhǔn)差表示為所有樣本表示為極差表示為作用:變換后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1,消去了量綱的影響;當(dāng)抽樣樣本改變時(shí),它仍能保持相對(duì)穩(wěn)定性。Range–1to1:極差標(biāo)準(zhǔn)化變換作用:變換后的數(shù)據(jù)均值為0,極差為1,且

5、xij*

6、<1,消去了量綱的影響;在以后的分析計(jì)算中可以減少誤差的產(chǎn)生。Maximummagnitudeof1作用:變換后的數(shù)據(jù)最大值為

7、1。Range0to1(極差正規(guī)化變換/規(guī)格化變換)作用:變換后的數(shù)據(jù)最小為0,最大為1,其余在區(qū)間[0,1]內(nèi),極差為1,無(wú)量綱。Meanof1作用:變換后的數(shù)據(jù)均值為1。Standarddeviationof1作用:變換后的數(shù)據(jù)標(biāo)準(zhǔn)差為1。在SPSS中如何選擇測(cè)度:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對(duì)話框中進(jìn)行如下選擇2.構(gòu)造關(guān)系矩陣描述變量或樣本的親疏程度的數(shù)量指標(biāo)有兩種:相似系數(shù)——性質(zhì)越接近的樣品,相似系數(shù)越接近于1或-1;彼此無(wú)關(guān)的樣品相似系數(shù)則接近于0,聚類時(shí)相似的樣品聚為一類距離

8、——將每一個(gè)樣品看作m維空間的一個(gè)點(diǎn),在這m維空間中定義距離,距離較近的點(diǎn)歸為一類。相似系數(shù)與距離有40多種,但常用的只是少數(shù)從Measure框中點(diǎn)擊Interval項(xiàng)的向下箭頭,將出現(xiàn)如左可選項(xiàng),從中選一即可。常用測(cè)度(選項(xiàng)說(shuō)明):Euclideandistance:歐氏距離(二階Minkowski距離)SquaredEucideandistance:平方歐氏距離用途:聚類分析中用得最廣泛的距離但與各變量的量綱有關(guān),未考慮指標(biāo)間的相關(guān)性,也未考慮各變量方差的不同用途:聚類分析中用得最廣泛的距離Cosine:夾角余弦(相似性測(cè)度)用途:計(jì)算兩個(gè)向量在原點(diǎn)處的夾角余弦。

9、當(dāng)兩夾角為0o時(shí),取值為1,說(shuō)明極相似;當(dāng)夾角為90o時(shí),取值為0,說(shuō)明兩者不相關(guān)。取值范圍:0~1Pearsoncorrelation:皮爾遜相關(guān)系數(shù)Chebychev:切比雪夫距離用途:計(jì)算兩個(gè)向量的皮爾遜相關(guān)系數(shù)用途:計(jì)算兩個(gè)向量的切比雪夫距離Block:絕對(duì)值距離(一階Minkowski度量)(又稱Manhattan度量或網(wǎng)格度量)用途:計(jì)算兩個(gè)向量的絕對(duì)值距離Minkowski:明科夫斯基距離用途:計(jì)算兩個(gè)向量的明科夫斯基距離Customized:自定義距離用途:計(jì)算兩個(gè)向量的自定義距離確定了樣品或變量間的距離或相似系數(shù)后,就要對(duì)樣品或變量

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。