基于云計算的聚類算法的mapreduce化研究

基于云計算的聚類算法的mapreduce化研究

ID:33388079

大?。?.39 MB

頁數(shù):63頁

時間:2019-02-25

基于云計算的聚類算法的mapreduce化研究_第1頁
基于云計算的聚類算法的mapreduce化研究_第2頁
基于云計算的聚類算法的mapreduce化研究_第3頁
基于云計算的聚類算法的mapreduce化研究_第4頁
基于云計算的聚類算法的mapreduce化研究_第5頁
資源描述:

《基于云計算的聚類算法的mapreduce化研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、萬方數(shù)據(jù)分類號UDC密級學(xué)位論文基于云計算的聚類算法的MapReduce化研究作者姓名:指導(dǎo)教師:申請學(xué)位級別:學(xué)科專業(yè)名稱:論文提交日期:學(xué)位授予日期:評閱人:胡飛翔王翠榮教授東北大學(xué)信息科學(xué)與工程學(xué)院碩士學(xué)科類別:專業(yè)學(xué)位計算機(jī)技術(shù)2012年6月論文答辯日期:2012年6月答辯委員會主席:才書訓(xùn)教授唐勇教授才書訓(xùn)教授東北大學(xué)2012年6月萬方數(shù)據(jù)AThesisinComputerTechnologyResearchonMapRedueofClusteringAlgorithmsBasedonCloudComputingByHuFeixian

2、gSupervisor:ProfessorWangCuirongNortheasternUniversityJune2012萬方數(shù)據(jù)獨(dú)創(chuàng)性聲明本人聲明,所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的。論文中取得的研究成果除加以標(biāo)注和致謝的地方外,不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包括本人為獲得其他學(xué)位而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:/1躐色筍瀹日期:2.:D/2、多./j‘學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:

3、即學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人同意東北大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索、交流。作者和導(dǎo)師同意網(wǎng)上交流的時間為作者獲得學(xué)位后:半年口一年口一年半口兩年彳學(xué)位論文作者簽名:/娥色鄉(xiāng)擱簽字日期:Z012.占、,,一竹莩文亥丫唯易Z名期簽日幣≠師字導(dǎo)簽萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要基于云計算的聚類算法的MapReduce化研究摘要聚類算法的研究有著很長的歷史,幾十年來,其重要性及與其他研究方向的交叉性得到人們的肯定。聚類算法作為一種非監(jiān)督學(xué)習(xí)的方法,是包括模式識別、數(shù)據(jù)挖

4、掘、圖像分析、機(jī)器學(xué)習(xí)等諸多領(lǐng)域數(shù)據(jù)統(tǒng)計分析的一種常用技術(shù)。隨著互聯(lián)網(wǎng)上數(shù)據(jù)的快速增長,在單機(jī)上對大規(guī)模數(shù)據(jù)進(jìn)行聚類時會遇到內(nèi)存容量和內(nèi)核處理速度的瓶頸問題,難以滿足實(shí)際應(yīng)用的需求。云計算是一種利用互聯(lián)網(wǎng)實(shí)現(xiàn)隨時隨地、按需、便捷地訪問共享資源池的計算模式。云計算是網(wǎng)格計算、并行計算和分布式計算的發(fā)展,具有處理大規(guī)模數(shù)據(jù)的能力。本文旨在利用云計算平臺的大規(guī)模數(shù)據(jù)處理能力,解決聚類算法所面臨的大規(guī)模數(shù)據(jù)問題。本文分析了云計算的體系架構(gòu),研究了MapReduce編程模型和HDFS分布式文件系統(tǒng),介紹了聚類算法的相關(guān)技術(shù)。將ISODATA算法與MapR

5、educe編程模型相結(jié)合,實(shí)現(xiàn)了基于MapReduce的ISODATA算法。針對ISODATA算法的不足,提出了一種改進(jìn)的算法WISODATA,并實(shí)現(xiàn)了基于MapReduce的WISODATA算法。從UCI機(jī)器學(xué)習(xí)庫上選取知名數(shù)據(jù)集,分析和比較了ISODATA算法、基于MapReduce的ISODATA算法、WISODATA算法和基于MapReduce的WISODATA算法的聚類結(jié)果,實(shí)驗(yàn)結(jié)果表明四種算法聚類結(jié)果具有較高的準(zhǔn)確率,WISODATA與基于MapReduce的WISODATA算法均優(yōu)于ISODATA與基于MapReduce的ISOD

6、ATA算法。通過在不同大小數(shù)據(jù)集上的實(shí)驗(yàn)分析了基于MapReduce的ISODATA與WISODATA算法的性能,實(shí)驗(yàn)結(jié)果表明基于MapReduce的ISODATA與WISODATA算法具有優(yōu)良的加速比、數(shù)據(jù)伸縮率和擴(kuò)展率,適合運(yùn)行于云計算平臺,可以有效地應(yīng)用于大規(guī)模數(shù)據(jù)的處理。關(guān)鍵詞:云計算;聚類算法;MapReduceISODATA;WISODATA—III—萬方數(shù)據(jù)ResearchonMapRedueofCBasedonCloudComputingAbstractTheresearchonclusteringalgorithmshasal

7、onghistory.Fordecades,theimportanceandcrossoverwiththeotherdirectionsofresearchareaffirmedbypeople.Clusteringasamethodofunsupervisedlearningisacorn/nontechniqueforstatisticaldataanalysisinmanyfields,includingpattemrecognition,datamining,imageanalysisandmachinelearning.Withra

8、pidgrowthofIntemetdata,clusteringlarge—scaledataonasinglecomputerwillencoun

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。