基于云平臺(tái)的聚類算法并行化研究.pdf

基于云平臺(tái)的聚類算法并行化研究.pdf

ID:50117921

大?。?.89 MB

頁數(shù):58頁

時(shí)間:2020-03-06

基于云平臺(tái)的聚類算法并行化研究.pdf_第1頁
基于云平臺(tái)的聚類算法并行化研究.pdf_第2頁
基于云平臺(tái)的聚類算法并行化研究.pdf_第3頁
基于云平臺(tái)的聚類算法并行化研究.pdf_第4頁
基于云平臺(tái)的聚類算法并行化研究.pdf_第5頁
資源描述:

《基于云平臺(tái)的聚類算法并行化研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、‘.零廣'祭薦—.':密級(jí)單位代碼:.么開..—京捉r^A哺:'■‘:c如義,扛‘:、';.iT.碩女緣化俗戈v;^lP麵.―;.^.譚焉V可皆^坪:,1皆巖:廉%:,?儀.,芽.議參1H'感p'婦顯龜-W顯擊.曜;巧蠻4作.'''’.八.'一..’,’..巧聲.含/:踰若.安祭巧巧為'‘';聲P.;論文題目:暮于云平臺(tái)的聚類算法并行化研究;;端i...'片.’',.’.;記;讀.V:’:-.'.'—--‘':_又巧:..‘.’.職v.地.V苗r巧/諾

2、追-1012041032學(xué)號(hào)—:_..J叫刮鑛..下巧中;、^:.:手姓名MMr:/導(dǎo)師逃籃量學(xué)科專業(yè)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),,爲(wèi)羣秦;'研究方向嵌入式系統(tǒng)設(shè)計(jì)及其在通信中的應(yīng)用藻r標(biāo)..':’'i,,./i知?#申請(qǐng)學(xué)位類別王學(xué)碩丈心I,‘20153年月:.。鳥觀論義提交日期讀D襲-'交慾資帶I;,iV:’'..-^知扭叫盧靖也.i轉(zhuǎn).:滿.',濟(jì)苗讀挙耀藻雜.鱗?。崳娔暇┼]電大學(xué)學(xué)位論文原創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的

3、研究工作及取得的研究成果。盡我所知,除了文中特別加^^^標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得南京郵電大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。一與我同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示了謝意。一切本人學(xué)位論文及涉及相關(guān)資料若有不實(shí),愿意承擔(dān)相關(guān)的法律責(zé)任。研究生簽名;娘雙日期;0中南京郵電大學(xué)學(xué)位論文使用授權(quán)聲明本人授權(quán)南京郵電大學(xué)可W保留并向國家有關(guān)部n或機(jī)構(gòu)送交論文的復(fù)印件和電子文可檔;允許論文被查閱和借閱;可W將學(xué)位論文的

4、全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索;論tu采用影印、縮印或污描等復(fù)制手段保存、匯編本學(xué)位論文。本文電子文巧的內(nèi)容和紙質(zhì)一致文的內(nèi)容相。論文的公布(包括刊登)授權(quán)南京郵電大學(xué)研究生院辦理。涉密學(xué)位論文在解密后適用本授權(quán)書。和研究生簽名:善逝導(dǎo)師簽名;若曰期;問丄—個(gè)-13六ParallelizedClusteringAlgorithmBasedOnThecloudPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheD

5、egreeofMasterofEngineeringByKunChengSupervisor:Prof.FangwuYaoMarch2015摘要聚類算法是數(shù)據(jù)挖掘中的重要內(nèi)容,能夠從數(shù)據(jù)中提取出隱藏的有用信息和知識(shí)來為人們服務(wù),在工業(yè)、商業(yè)以及科研領(lǐng)域都得到了廣泛應(yīng)用。隨著當(dāng)今社會(huì)數(shù)據(jù)量急劇增加,單機(jī)聚類算法的計(jì)算能力漸漸無法滿足需求,廣大互聯(lián)網(wǎng)公司為了從激烈的商業(yè)競爭中脫穎而出以獲得商業(yè)成功和大量的經(jīng)濟(jì)利益,紛紛為大規(guī)模數(shù)據(jù)的處理尋求有效策略,于是多臺(tái)計(jì)算機(jī)共同參與運(yùn)算的分布式聚類算法成為當(dāng)前研究熱點(diǎn)。云計(jì)算平臺(tái)是一個(gè)優(yōu)秀的新型商業(yè)計(jì)

6、算模型,通過虛擬化技術(shù)把互聯(lián)網(wǎng)中的節(jié)點(diǎn)資源相融合來提供優(yōu)越的計(jì)算能力,并且能夠根據(jù)計(jì)算任務(wù)中任務(wù)量的實(shí)時(shí)變化情況來動(dòng)態(tài)擴(kuò)展集群中的節(jié)點(diǎn)。系統(tǒng)將待處理的計(jì)算任務(wù)合理分配到計(jì)算機(jī)集群中的節(jié)點(diǎn)上,根據(jù)實(shí)際需求得到所需的存儲(chǔ)空間和計(jì)算能力等資源,用戶在無需理解云內(nèi)部的知識(shí)和細(xì)節(jié)的情況下也可以使用云平臺(tái)中的基礎(chǔ)設(shè)施。Hadoop作為Apache基金會(huì)開發(fā)的開源云計(jì)算平臺(tái),以一種高效可靠可伸縮的方式處理數(shù)據(jù),此外還具有高容錯(cuò)性和低成本等優(yōu)點(diǎn),是一個(gè)能夠分布式處理海量數(shù)據(jù)的軟件框架。Hadoop核心設(shè)計(jì)是底部HDFS(分布式文件系統(tǒng))和上層MapRe

7、duce(編程模式),分別為海量數(shù)據(jù)提供存儲(chǔ)和計(jì)算。本文主要研究如何運(yùn)用云平臺(tái)中大量計(jì)算機(jī)節(jié)點(diǎn)的并行計(jì)算能力來解決大規(guī)模數(shù)據(jù)聚類的難題。針對(duì)Kmeans算法中一些不足之處提出改進(jìn):采用Canopy算法作為Kmeans聚類的初始步驟,并基于“最小最大原則”優(yōu)化初始聚類中心的選?。粚?duì)Kmeans迭代過程加以優(yōu)化使整體計(jì)算量得到降低,進(jìn)一步提高算法效率。詳細(xì)分析DBSCAN算法在參數(shù)選擇,內(nèi)存使用、I/O開銷等方面存在的問題,提出了一個(gè)基于層次的優(yōu)化算法。既解除了因參數(shù)選擇不當(dāng)而對(duì)算法效率造成的影響,還在一定程度上降低了查詢次數(shù)從而減小I/O

8、開銷。最后,通過搭建Hadoop平臺(tái)分別對(duì)基于MapReduce的Kmeans和DBSCAN并行優(yōu)化算法進(jìn)行一系列的測試實(shí)驗(yàn)來驗(yàn)證性能。實(shí)驗(yàn)表明:Kmeans優(yōu)化算法在迭代速度及聚類結(jié)果準(zhǔn)確率上有所提升;D

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。