資源描述:
《基于云平臺(tái)的聚類算法并行化研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、‘.零廣'祭薦—.':密級(jí)單位代碼:.么開..—京捉r^A哺:'■‘:c如義,扛‘:、';.iT.碩女緣化俗戈v;^lP麵.―;.^.譚焉V可皆^坪:,1皆巖:廉%:,?儀.,芽.議參1H'感p'婦顯龜-W顯擊.曜;巧蠻4作.'''’.八.'一..’,’..巧聲.含/:踰若.安祭巧巧為'‘';聲P.;論文題目:暮于云平臺(tái)的聚類算法并行化研究;;端i...'片.’',.’.;記;讀.V:’:-.'.'—--‘':_又巧:..‘.’.職v.地.V苗r巧/諾
2、追-1012041032學(xué)號(hào)—:_..J叫刮鑛..下巧中;、^:.:手姓名MMr:/導(dǎo)師逃籃量學(xué)科專業(yè)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),,爲(wèi)羣秦;'研究方向嵌入式系統(tǒng)設(shè)計(jì)及其在通信中的應(yīng)用藻r標(biāo)..':’'i,,./i知?#申請(qǐng)學(xué)位類別王學(xué)碩丈心I,‘20153年月:.。鳥觀論義提交日期讀D襲-'交慾資帶I;,iV:’'..-^知扭叫盧靖也.i轉(zhuǎn).:滿.',濟(jì)苗讀挙耀藻雜.鱗?。崳娔暇┼]電大學(xué)學(xué)位論文原創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的
3、研究工作及取得的研究成果。盡我所知,除了文中特別加^^^標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得南京郵電大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。一與我同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示了謝意。一切本人學(xué)位論文及涉及相關(guān)資料若有不實(shí),愿意承擔(dān)相關(guān)的法律責(zé)任。研究生簽名;娘雙日期;0中南京郵電大學(xué)學(xué)位論文使用授權(quán)聲明本人授權(quán)南京郵電大學(xué)可W保留并向國家有關(guān)部n或機(jī)構(gòu)送交論文的復(fù)印件和電子文可檔;允許論文被查閱和借閱;可W將學(xué)位論文的
4、全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索;論tu采用影印、縮印或污描等復(fù)制手段保存、匯編本學(xué)位論文。本文電子文巧的內(nèi)容和紙質(zhì)一致文的內(nèi)容相。論文的公布(包括刊登)授權(quán)南京郵電大學(xué)研究生院辦理。涉密學(xué)位論文在解密后適用本授權(quán)書。和研究生簽名:善逝導(dǎo)師簽名;若曰期;問丄—個(gè)-13六ParallelizedClusteringAlgorithmBasedOnThecloudPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheD
5、egreeofMasterofEngineeringByKunChengSupervisor:Prof.FangwuYaoMarch2015摘要聚類算法是數(shù)據(jù)挖掘中的重要內(nèi)容,能夠從數(shù)據(jù)中提取出隱藏的有用信息和知識(shí)來為人們服務(wù),在工業(yè)、商業(yè)以及科研領(lǐng)域都得到了廣泛應(yīng)用。隨著當(dāng)今社會(huì)數(shù)據(jù)量急劇增加,單機(jī)聚類算法的計(jì)算能力漸漸無法滿足需求,廣大互聯(lián)網(wǎng)公司為了從激烈的商業(yè)競爭中脫穎而出以獲得商業(yè)成功和大量的經(jīng)濟(jì)利益,紛紛為大規(guī)模數(shù)據(jù)的處理尋求有效策略,于是多臺(tái)計(jì)算機(jī)共同參與運(yùn)算的分布式聚類算法成為當(dāng)前研究熱點(diǎn)。云計(jì)算平臺(tái)是一個(gè)優(yōu)秀的新型商業(yè)計(jì)
6、算模型,通過虛擬化技術(shù)把互聯(lián)網(wǎng)中的節(jié)點(diǎn)資源相融合來提供優(yōu)越的計(jì)算能力,并且能夠根據(jù)計(jì)算任務(wù)中任務(wù)量的實(shí)時(shí)變化情況來動(dòng)態(tài)擴(kuò)展集群中的節(jié)點(diǎn)。系統(tǒng)將待處理的計(jì)算任務(wù)合理分配到計(jì)算機(jī)集群中的節(jié)點(diǎn)上,根據(jù)實(shí)際需求得到所需的存儲(chǔ)空間和計(jì)算能力等資源,用戶在無需理解云內(nèi)部的知識(shí)和細(xì)節(jié)的情況下也可以使用云平臺(tái)中的基礎(chǔ)設(shè)施。Hadoop作為Apache基金會(huì)開發(fā)的開源云計(jì)算平臺(tái),以一種高效可靠可伸縮的方式處理數(shù)據(jù),此外還具有高容錯(cuò)性和低成本等優(yōu)點(diǎn),是一個(gè)能夠分布式處理海量數(shù)據(jù)的軟件框架。Hadoop核心設(shè)計(jì)是底部HDFS(分布式文件系統(tǒng))和上層MapRe
7、duce(編程模式),分別為海量數(shù)據(jù)提供存儲(chǔ)和計(jì)算。本文主要研究如何運(yùn)用云平臺(tái)中大量計(jì)算機(jī)節(jié)點(diǎn)的并行計(jì)算能力來解決大規(guī)模數(shù)據(jù)聚類的難題。針對(duì)Kmeans算法中一些不足之處提出改進(jìn):采用Canopy算法作為Kmeans聚類的初始步驟,并基于“最小最大原則”優(yōu)化初始聚類中心的選?。粚?duì)Kmeans迭代過程加以優(yōu)化使整體計(jì)算量得到降低,進(jìn)一步提高算法效率。詳細(xì)分析DBSCAN算法在參數(shù)選擇,內(nèi)存使用、I/O開銷等方面存在的問題,提出了一個(gè)基于層次的優(yōu)化算法。既解除了因參數(shù)選擇不當(dāng)而對(duì)算法效率造成的影響,還在一定程度上降低了查詢次數(shù)從而減小I/O
8、開銷。最后,通過搭建Hadoop平臺(tái)分別對(duì)基于MapReduce的Kmeans和DBSCAN并行優(yōu)化算法進(jìn)行一系列的測試實(shí)驗(yàn)來驗(yàn)證性能。實(shí)驗(yàn)表明:Kmeans優(yōu)化算法在迭代速度及聚類結(jié)果準(zhǔn)確率上有所提升;D