基于劃分的混合屬性聚類算法研究

ID：32966238

大?。?.59 MB

頁數(shù)：63頁

時間：2019-02-18

資源描述：

《基于劃分的混合屬性聚類算法研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、湖南大學碩士學位論文基于劃分的混合屬性聚類算法研究姓名：陳韡申請學位級別：碩士專業(yè)：軟件工程指導教師：王雷;楊祖強20100423分布式混合屬性聚類算法研究摘要聚類分析是一種非常重要的數(shù)據(jù)挖掘技術(shù)，也是數(shù)據(jù)挖掘研究中的一個熱點問題。在眾多待聚類的數(shù)據(jù)類型中，混合屬性數(shù)據(jù)是最常見一種，而其中的分類屬性值具有有限，無序和不能比較大小的特點，這使得能合理描述樣本對象間差異的相似度量很難被確定，另外，將類屬性轉(zhuǎn)換為數(shù)值屬性，又往往得不到有效的結(jié)果，因此目前許多處理數(shù)值型的聚類算法不適合于處理混合屬性數(shù)據(jù)，而能夠處理這類數(shù)

2、據(jù)的算法不僅數(shù)量較少，且性能與聚類質(zhì)量等方面還尚需完善。因此，對混合屬性數(shù)據(jù)聚類算法進行探索和改進，是聚類分析領(lǐng)域重要的課題之一。從算法精度和降低消耗的角度出發(fā)，本文對現(xiàn)有混合屬性數(shù)據(jù)聚類算法的優(yōu)缺點進行了分析，并基于k．prototypes算法對混合屬性數(shù)據(jù)處理的聚類問題進行研究。為了減少k．prototypes算法隨機選擇初始聚類中心對聚類質(zhì)量的影響，本文引入了基于線性模型的初始節(jié)點選取方法，使之能更有效的反映數(shù)據(jù)集特征；針對衡量混合屬性數(shù)據(jù)對象距離的相異度不能有效利用聚類集信息，尤其當數(shù)據(jù)量增大，數(shù)據(jù)集類型

3、復雜時，不能確切反映樣本差異的缺點，本文在原有計算方法的基礎(chǔ)上，對相異度計算公式進行了改進，使之能更加精確的反映樣本間的差異，然后，在此基礎(chǔ)上提出了一種用于處理混合屬性數(shù)據(jù)的聚類算法。本文的工作主要包含下列內(nèi)容：(1)對本課題背景和國內(nèi)外研究現(xiàn)狀進行了綜述。(2)對聚類分析中的幾類主要算法進行了分析比較，介紹了聚類過程中現(xiàn)有的數(shù)據(jù)類型及處理方式。(3)對k．prototypes算法進行了描述和優(yōu)缺點分析，并在此基礎(chǔ)上對其初始聚類中心的選擇與相異度計算方法進行了改進。(4)基于改進后的k．prototypes算法，

4、提出了一種處理混合屬性數(shù)據(jù)的聚類算法，并將其應(yīng)用于英語借詞數(shù)據(jù)的聚類分析中，設(shè)計了一個仿真的實驗平臺，該平臺采用VisualC++語言實現(xiàn)算法代碼，使用SQLSERVER作為數(shù)據(jù)庫，全方位的對本文提出的新算法進行了性能驗證，實驗結(jié)果表明，與k．prototypes算法相比，改進后的算法具有更好的穩(wěn)定性和較高的精度。關(guān)鍵詞：數(shù)據(jù)挖掘；聚類；混合屬性數(shù)據(jù)；k-prototypes算法II工程碩上學位論文AbstractClusteranalysisisonekindofimportantdataminingtechn

5、ique，andit’Salsoahotissueindataminingresearches．Amongthedatatypestobeclustered，datawithmixednumericandcategoricalvaluesisthemostcommononewhosecategorypropertyvalueislimited，disorderandnotabletobecompared．Thesecharacteristicsleadtomanyproblems．Forinstance，nora

6、tionaldissimilaritydegreecanbeusedtodescribethedifferencesbetweensamples．Otherwise，themethodofconvertingthecategoryvaluetonumericvaluecannotgeteffectiveresultsusually．Sothatmanyclusteringalgorithmsusedtodealwithnumericpropertyareunfitfordatawithcategoricalatt

7、ributes，whereasthereexistfewalgorithmsthatcandealwithsuchkindofdata，andtheirperformance，clusteringqualityremaintobeimproved．Therefore，theexploringandimprovingofclusteringalgorithmsfordatawithmixednumericandcategoricalattributesisoneoftheimportanttopicsinthefi

8、eldofclusteranalysis．Fromtheperspectiveoftheaccuracyimprovementandconsumptionreducing，thisarticleanalyzesadvantagesanddisadvantagesoftheclusteringalgorithmdealingwithdatawithmixedattribut

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 63



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于劃分的混合屬性聚類算法研究

基于劃分的混合屬性聚類算法研究

相關(guān)文章

相關(guān)標簽