基于云平臺(tái)的聚類算法并行化研究.pdf

ID：50117921

大?。?.89 MB

頁數(shù)：58頁

時(shí)間：2020-03-06

資源描述：

《基于云平臺(tái)的聚類算法并行化研究.pdf》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、‘．零廣＇祭薦—．＇：密級(jí)單位代碼：．么開．．—京捉ｒ＾Ａ哺：＇■‘：ｃ如義，扛‘：、＇；．ｉＴ．碩女緣化俗戈ｖ；＾ｌＰ麵．―；．＾．譚焉Ｖ可皆＾坪：，１皆巖：廉％：，？儀．，芽．議參１Ｈ＇感ｐ＇婦顯龜－Ｗ顯擊．曜；巧蠻４作．＇＇＇’．八．＇一．．’，’．．巧聲．含／：踰若．安祭巧巧為＇‘＇；聲Ｐ．；論文題目：暮于云平臺(tái)的聚類算法并行化研究；；端ｉ．．．＇片．’＇，．’．；記；讀．Ｖ：’：－．＇．＇—－－‘＇：＿又巧：．．‘．’．職ｖ．地．Ｖ苗ｒ巧／諾

2、追－１０１２０４１０３２學(xué)號(hào)—：＿．．Ｊ叫刮鑛．．下巧中；、＾：．：手姓名ＭＭｒ：／導(dǎo)師逃籃量學(xué)科專業(yè)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)，，爲(wèi)羣秦；＇研究方向嵌入式系統(tǒng)設(shè)計(jì)及其在通信中的應(yīng)用藻ｒ標(biāo)．．＇：’＇ｉ，，．／ｉ知？＃申請(qǐng)學(xué)位類別王學(xué)碩丈心Ｉ，‘２０１５３年月：．。鳥觀論義提交日期讀Ｄ襲－＇交慾資帶Ｉ；，ｉＶ：’＇．．－＾知扭叫盧靖也．ｉ轉(zhuǎn)．：滿．＇，濟(jì)苗讀挙耀藻雜．鱗?。崳娔暇┼]電大學(xué)學(xué)位論文原創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的

3、研究工作及取得的研究成果。盡我所知，除了文中特別加＾＾＾標(biāo)注和致謝的地方外，論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果，也不包含為獲得南京郵電大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。一與我同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示了謝意。一切本人學(xué)位論文及涉及相關(guān)資料若有不實(shí)，愿意承擔(dān)相關(guān)的法律責(zé)任。研究生簽名；娘雙日期；０中南京郵電大學(xué)學(xué)位論文使用授權(quán)聲明本人授權(quán)南京郵電大學(xué)可Ｗ保留并向國家有關(guān)部ｎ或機(jī)構(gòu)送交論文的復(fù)印件和電子文可檔；允許論文被查閱和借閱；可Ｗ將學(xué)位論文的

4、全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索；論ｔｕ采用影印、縮印或污描等復(fù)制手段保存、匯編本學(xué)位論文。本文電子文巧的內(nèi)容和紙質(zhì)一致文的內(nèi)容相。論文的公布（包括刊登）授權(quán)南京郵電大學(xué)研究生院辦理。涉密學(xué)位論文在解密后適用本授權(quán)書。和研究生簽名：善逝導(dǎo)師簽名；若曰期；問丄—個(gè)－１３六ParallelizedClusteringAlgorithmBasedOnThecloudPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheD

5、egreeofMasterofEngineeringByKunChengSupervisor:Prof.FangwuYaoMarch2015摘要聚類算法是數(shù)據(jù)挖掘中的重要內(nèi)容，能夠從數(shù)據(jù)中提取出隱藏的有用信息和知識(shí)來為人們服務(wù)，在工業(yè)、商業(yè)以及科研領(lǐng)域都得到了廣泛應(yīng)用。隨著當(dāng)今社會(huì)數(shù)據(jù)量急劇增加，單機(jī)聚類算法的計(jì)算能力漸漸無法滿足需求，廣大互聯(lián)網(wǎng)公司為了從激烈的商業(yè)競爭中脫穎而出以獲得商業(yè)成功和大量的經(jīng)濟(jì)利益，紛紛為大規(guī)模數(shù)據(jù)的處理尋求有效策略，于是多臺(tái)計(jì)算機(jī)共同參與運(yùn)算的分布式聚類算法成為當(dāng)前研究熱點(diǎn)。云計(jì)算平臺(tái)是一個(gè)優(yōu)秀的新型商業(yè)計(jì)

6、算模型，通過虛擬化技術(shù)把互聯(lián)網(wǎng)中的節(jié)點(diǎn)資源相融合來提供優(yōu)越的計(jì)算能力，并且能夠根據(jù)計(jì)算任務(wù)中任務(wù)量的實(shí)時(shí)變化情況來動(dòng)態(tài)擴(kuò)展集群中的節(jié)點(diǎn)。系統(tǒng)將待處理的計(jì)算任務(wù)合理分配到計(jì)算機(jī)集群中的節(jié)點(diǎn)上，根據(jù)實(shí)際需求得到所需的存儲(chǔ)空間和計(jì)算能力等資源，用戶在無需理解云內(nèi)部的知識(shí)和細(xì)節(jié)的情況下也可以使用云平臺(tái)中的基礎(chǔ)設(shè)施。Hadoop作為Apache基金會(huì)開發(fā)的開源云計(jì)算平臺(tái)，以一種高效可靠可伸縮的方式處理數(shù)據(jù)，此外還具有高容錯(cuò)性和低成本等優(yōu)點(diǎn)，是一個(gè)能夠分布式處理海量數(shù)據(jù)的軟件框架。Hadoop核心設(shè)計(jì)是底部HDFS（分布式文件系統(tǒng)）和上層MapRe

7、duce（編程模式），分別為海量數(shù)據(jù)提供存儲(chǔ)和計(jì)算。本文主要研究如何運(yùn)用云平臺(tái)中大量計(jì)算機(jī)節(jié)點(diǎn)的并行計(jì)算能力來解決大規(guī)模數(shù)據(jù)聚類的難題。針對(duì)Kmeans算法中一些不足之處提出改進(jìn)：采用Canopy算法作為Kmeans聚類的初始步驟，并基于“最小最大原則”優(yōu)化初始聚類中心的選?。粚?duì)Kmeans迭代過程加以優(yōu)化使整體計(jì)算量得到降低，進(jìn)一步提高算法效率。詳細(xì)分析DBSCAN算法在參數(shù)選擇，內(nèi)存使用、I/O開銷等方面存在的問題，提出了一個(gè)基于層次的優(yōu)化算法。既解除了因參數(shù)選擇不當(dāng)而對(duì)算法效率造成的影響，還在一定程度上降低了查詢次數(shù)從而減小I/O

8、開銷。最后，通過搭建Hadoop平臺(tái)分別對(duì)基于MapReduce的Kmeans和DBSCAN并行優(yōu)化算法進(jìn)行一系列的測試實(shí)驗(yàn)來驗(yàn)證性能。實(shí)驗(yàn)表明：Kmeans優(yōu)化算法在迭代速度及聚類結(jié)果準(zhǔn)確率上有所提升；D

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 58



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于云平臺(tái)的聚類算法并行化研究.pdf

基于云平臺(tái)的聚類算法并行化研究.pdf

相關(guān)文章

相關(guān)標(biāo)簽