數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用

數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用

ID:33784249

大?。?008.73 KB

頁數(shù):83頁

時(shí)間:2019-03-01

數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用_第1頁
數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用_第2頁
數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用_第3頁
數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用_第4頁
數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用_第5頁
資源描述:

《數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、電子科技大學(xué)UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA工程碩士學(xué)位論文ENGINEERINGMASTERDISSERTATION論文題目數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用工程領(lǐng)域軟件工程指導(dǎo)教師羅惠瓊教授作者姓名嚴(yán)勇班學(xué)號(hào)200531405028分類號(hào)密級(jí)注1UDC學(xué)位論文數(shù)據(jù)挖掘中聚類分析算法研究與應(yīng)用(題名和副題名)嚴(yán)勇(作者姓名)指導(dǎo)教師姓名羅惠瓊教授電子科技大學(xué)成都高軍副研究員甘孜州科技情報(bào)研究所康定(職務(wù)、職稱、學(xué)位、單位名稱及地址)申請(qǐng)專業(yè)學(xué)位級(jí)別碩士專業(yè)學(xué)位類別工

2、程碩士工程領(lǐng)域名稱軟件工程提交論文日期2007.10論文答辯日期2007.11學(xué)位授予單位和日期電子科技大學(xué)答辯委員會(huì)主席評(píng)閱人2007年月日注1:注明《國際十進(jìn)分類法UDC》的類獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。簽名:日期:年月日關(guān)于論文使用授權(quán)

3、的說明本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:日期:年月日摘要摘要聚類分析是數(shù)據(jù)挖掘中的一個(gè)重要研究領(lǐng)域,是一種數(shù)據(jù)劃分或分組處理的重要手段和方法。目前其研究已深入到數(shù)據(jù)庫、數(shù)據(jù)挖掘、統(tǒng)計(jì)等領(lǐng)域并取得了很大的成績。聚類分析算法大體上分為:劃分的方法、層次

4、的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。這些算法存在如下的問題:符號(hào)屬性問題、算法的效率問題、初值的選擇問題、對(duì)輸入順序的敏感性問題,最優(yōu)解問題、算法對(duì)輸入?yún)?shù)的依賴性問題。DBSCAN是一種基于密度的方法,該算法的顯著優(yōu)點(diǎn)是速度快,可以發(fā)現(xiàn)任意形狀的聚類和噪聲點(diǎn)。但是當(dāng)數(shù)據(jù)量非常龐大時(shí),該算法對(duì)主存要求較高,而且需要定義一個(gè)全局變量Eps,如果這個(gè)全局變量Eps定義的不好,將會(huì)影響聚類質(zhì)量,尤其是數(shù)據(jù)分布不均勻時(shí),因此DBSCAN對(duì)輸入?yún)?shù)Eps是十分依賴的。論文在對(duì)DBSCAN算法不足的分析基礎(chǔ)上,對(duì)DBSCA

5、N算法進(jìn)行了改進(jìn)。從DBSCAN算法可以看出,全局變量Eps值影響了聚類質(zhì)量,尤其是數(shù)據(jù)分布不均勻時(shí)。因此考慮對(duì)數(shù)據(jù)進(jìn)行一個(gè)劃分,每一個(gè)劃分中的數(shù)據(jù)分布相對(duì)較均勻,根據(jù)每個(gè)劃分中數(shù)據(jù)的分布密集程度來選取Eps值。K-means算法是一種基于劃分的聚類算法,它把n個(gè)對(duì)象劃分成K個(gè)類,其中的聚類數(shù)目k是輸入?yún)?shù),該算法是通過不斷地迭代來進(jìn)行聚類,當(dāng)算法收斂到一個(gè)結(jié)束條件時(shí),就終止迭代過程,輸出一個(gè)聚類結(jié)果。但是由于K-means算法在選擇初始聚類中心時(shí)是隨機(jī)選取K個(gè)點(diǎn),因此一旦這K個(gè)點(diǎn)選取不合理將會(huì)誤導(dǎo)聚類過程,得到一個(gè)不合理的聚類結(jié)

6、果。對(duì)K-means聚類算法中聚類結(jié)果對(duì)初始聚類中心的依賴進(jìn)行了分析和嘗試改進(jìn),對(duì)聚類中心的選取進(jìn)行了改進(jìn)。最后在這些工作基礎(chǔ)之上,根據(jù)康定師專數(shù)學(xué)系2006級(jí)48名學(xué)生在2005-2006學(xué)年度7門學(xué)科的考試分?jǐn)?shù),采用聚類算法,對(duì)學(xué)生進(jìn)行分類。關(guān)鍵詞:數(shù)據(jù)挖掘,聚類,DBSCAN,K-meansIABSTRACTABSTRACTClusteringisanimportantareaofapplicationforavarietyoffieldsincludingdataminingandisanimportantmethodof

7、datapartitionorgrouping.thereare5kindsofclusteringalgorithmincludespartitionalalgorithm,hierarchicalalgorithm,density-basedalgorithm,grid-basedalgorithmandmodel-basedalgorithm.Buttherearemanydisadvantagesintheseclusteringalgorithms,forexample,workingonlyonnumericvalue

8、s,efficiency,sensitivetoinitialstartingconditions,sensitivetotheorderofdatainput,bestsolutions,relyingonparametersinputedand

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。