資源描述:
《基于云平臺的聚類算法并行化研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、‘.零廣'祭薦—.':密級單位代碼:.么開..—京捉r^A哺:'■‘:c如義,扛‘:、';.iT.碩女緣化俗戈v;^lP麵.―;.^.譚焉V可皆^坪:,1皆巖:廉%:,?儀.,芽.議參1H'感p'婦顯龜-W顯擊.曜;巧蠻4作.'''’.八.'一..’,’..巧聲.含/:踰若.安祭巧巧為'‘';聲P.;論文題目:暮于云平臺的聚類算法并行化研究;;端i...'片.’',.’.;記;讀.V:’:-.'.'—--‘':_又巧:..‘.’.職v.地.V苗r巧/諾
2、追-1012041032學(xué)號—:_..J叫刮鑛..下巧中;、^:.:手姓名MMr:/導(dǎo)師逃籃量學(xué)科專業(yè)計算機系統(tǒng)結(jié)構(gòu),,爲(wèi)羣秦;'研究方向嵌入式系統(tǒng)設(shè)計及其在通信中的應(yīng)用藻r標(biāo)..':’'i,,./i知?#申請學(xué)位類別王學(xué)碩丈心I,‘20153年月:.。鳥觀論義提交日期讀D襲-'交慾資帶I;,iV:’'..-^知扭叫盧靖也.i轉(zhuǎn).:滿.',濟苗讀挙耀藻雜.鱗?。崳娔暇┼]電大學(xué)學(xué)位論文原創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進行的
3、研究工作及取得的研究成果。盡我所知,除了文中特別加^^^標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得南京郵電大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。一與我同工作的同志對本研究所做的任何貢獻均己在論文中作了明確的說明并表示了謝意。一切本人學(xué)位論文及涉及相關(guān)資料若有不實,愿意承擔(dān)相關(guān)的法律責(zé)任。研究生簽名;娘雙日期;0中南京郵電大學(xué)學(xué)位論文使用授權(quán)聲明本人授權(quán)南京郵電大學(xué)可W保留并向國家有關(guān)部n或機構(gòu)送交論文的復(fù)印件和電子文可檔;允許論文被查閱和借閱;可W將學(xué)位論文的
4、全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索;論tu采用影印、縮印或污描等復(fù)制手段保存、匯編本學(xué)位論文。本文電子文巧的內(nèi)容和紙質(zhì)一致文的內(nèi)容相。論文的公布(包括刊登)授權(quán)南京郵電大學(xué)研究生院辦理。涉密學(xué)位論文在解密后適用本授權(quán)書。和研究生簽名:善逝導(dǎo)師簽名;若曰期;問丄—個-13六ParallelizedClusteringAlgorithmBasedOnThecloudPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheD
5、egreeofMasterofEngineeringByKunChengSupervisor:Prof.FangwuYaoMarch2015摘要聚類算法是數(shù)據(jù)挖掘中的重要內(nèi)容,能夠從數(shù)據(jù)中提取出隱藏的有用信息和知識來為人們服務(wù),在工業(yè)、商業(yè)以及科研領(lǐng)域都得到了廣泛應(yīng)用。隨著當(dāng)今社會數(shù)據(jù)量急劇增加,單機聚類算法的計算能力漸漸無法滿足需求,廣大互聯(lián)網(wǎng)公司為了從激烈的商業(yè)競爭中脫穎而出以獲得商業(yè)成功和大量的經(jīng)濟利益,紛紛為大規(guī)模數(shù)據(jù)的處理尋求有效策略,于是多臺計算機共同參與運算的分布式聚類算法成為當(dāng)前研究熱點。云計算平臺是一個優(yōu)秀的新型商業(yè)計
6、算模型,通過虛擬化技術(shù)把互聯(lián)網(wǎng)中的節(jié)點資源相融合來提供優(yōu)越的計算能力,并且能夠根據(jù)計算任務(wù)中任務(wù)量的實時變化情況來動態(tài)擴展集群中的節(jié)點。系統(tǒng)將待處理的計算任務(wù)合理分配到計算機集群中的節(jié)點上,根據(jù)實際需求得到所需的存儲空間和計算能力等資源,用戶在無需理解云內(nèi)部的知識和細(xì)節(jié)的情況下也可以使用云平臺中的基礎(chǔ)設(shè)施。Hadoop作為Apache基金會開發(fā)的開源云計算平臺,以一種高效可靠可伸縮的方式處理數(shù)據(jù),此外還具有高容錯性和低成本等優(yōu)點,是一個能夠分布式處理海量數(shù)據(jù)的軟件框架。Hadoop核心設(shè)計是底部HDFS(分布式文件系統(tǒng))和上層MapRe
7、duce(編程模式),分別為海量數(shù)據(jù)提供存儲和計算。本文主要研究如何運用云平臺中大量計算機節(jié)點的并行計算能力來解決大規(guī)模數(shù)據(jù)聚類的難題。針對Kmeans算法中一些不足之處提出改進:采用Canopy算法作為Kmeans聚類的初始步驟,并基于“最小最大原則”優(yōu)化初始聚類中心的選取;對Kmeans迭代過程加以優(yōu)化使整體計算量得到降低,進一步提高算法效率。詳細(xì)分析DBSCAN算法在參數(shù)選擇,內(nèi)存使用、I/O開銷等方面存在的問題,提出了一個基于層次的優(yōu)化算法。既解除了因參數(shù)選擇不當(dāng)而對算法效率造成的影響,還在一定程度上降低了查詢次數(shù)從而減小I/O
8、開銷。最后,通過搭建Hadoop平臺分別對基于MapReduce的Kmeans和DBSCAN并行優(yōu)化算法進行一系列的測試實驗來驗證性能。實驗表明:Kmeans優(yōu)化算法在迭代速度及聚類結(jié)果準(zhǔn)確率上有所提升;D