基于云計(jì)算的聚類算法的mapreduce化研究

基于云計(jì)算的聚類算法的mapreduce化研究

ID:33388079

大?。?.39 MB

頁(yè)數(shù):63頁(yè)

時(shí)間:2019-02-25

基于云計(jì)算的聚類算法的mapreduce化研究_第1頁(yè)
基于云計(jì)算的聚類算法的mapreduce化研究_第2頁(yè)
基于云計(jì)算的聚類算法的mapreduce化研究_第3頁(yè)
基于云計(jì)算的聚類算法的mapreduce化研究_第4頁(yè)
基于云計(jì)算的聚類算法的mapreduce化研究_第5頁(yè)
資源描述:

《基于云計(jì)算的聚類算法的mapreduce化研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、萬(wàn)方數(shù)據(jù)分類號(hào)UDC密級(jí)學(xué)位論文基于云計(jì)算的聚類算法的MapReduce化研究作者姓名:指導(dǎo)教師:申請(qǐng)學(xué)位級(jí)別:學(xué)科專業(yè)名稱:論文提交日期:學(xué)位授予日期:評(píng)閱人:胡飛翔王翠榮教授東北大學(xué)信息科學(xué)與工程學(xué)院碩士學(xué)科類別:專業(yè)學(xué)位計(jì)算機(jī)技術(shù)2012年6月論文答辯日期:2012年6月答辯委員會(huì)主席:才書訓(xùn)教授唐勇教授才書訓(xùn)教授東北大學(xué)2012年6月萬(wàn)方數(shù)據(jù)AThesisinComputerTechnologyResearchonMapRedueofClusteringAlgorithmsBasedonCloudComputingByHuFeixian

2、gSupervisor:ProfessorWangCuirongNortheasternUniversityJune2012萬(wàn)方數(shù)據(jù)獨(dú)創(chuàng)性聲明本人聲明,所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的。論文中取得的研究成果除加以標(biāo)注和致謝的地方外,不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包括本人為獲得其他學(xué)位而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。學(xué)位論文作者簽名:/1躐色筍瀹日期:2.:D/2、多./j‘學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:

3、即學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人同意東北大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索、交流。作者和導(dǎo)師同意網(wǎng)上交流的時(shí)間為作者獲得學(xué)位后:半年口一年口一年半口兩年彳學(xué)位論文作者簽名:/娥色鄉(xiāng)擱簽字日期:Z012.占、,,一竹莩文亥丫唯易Z名期簽日幣≠師字導(dǎo)簽萬(wàn)方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要基于云計(jì)算的聚類算法的MapReduce化研究摘要聚類算法的研究有著很長(zhǎng)的歷史,幾十年來(lái),其重要性及與其他研究方向的交叉性得到人們的肯定。聚類算法作為一種非監(jiān)督學(xué)習(xí)的方法,是包括模式識(shí)別、數(shù)據(jù)挖

4、掘、圖像分析、機(jī)器學(xué)習(xí)等諸多領(lǐng)域數(shù)據(jù)統(tǒng)計(jì)分析的一種常用技術(shù)。隨著互聯(lián)網(wǎng)上數(shù)據(jù)的快速增長(zhǎng),在單機(jī)上對(duì)大規(guī)模數(shù)據(jù)進(jìn)行聚類時(shí)會(huì)遇到內(nèi)存容量和內(nèi)核處理速度的瓶頸問(wèn)題,難以滿足實(shí)際應(yīng)用的需求。云計(jì)算是一種利用互聯(lián)網(wǎng)實(shí)現(xiàn)隨時(shí)隨地、按需、便捷地訪問(wèn)共享資源池的計(jì)算模式。云計(jì)算是網(wǎng)格計(jì)算、并行計(jì)算和分布式計(jì)算的發(fā)展,具有處理大規(guī)模數(shù)據(jù)的能力。本文旨在利用云計(jì)算平臺(tái)的大規(guī)模數(shù)據(jù)處理能力,解決聚類算法所面臨的大規(guī)模數(shù)據(jù)問(wèn)題。本文分析了云計(jì)算的體系架構(gòu),研究了MapReduce編程模型和HDFS分布式文件系統(tǒng),介紹了聚類算法的相關(guān)技術(shù)。將ISODATA算法與MapR

5、educe編程模型相結(jié)合,實(shí)現(xiàn)了基于MapReduce的ISODATA算法。針對(duì)ISODATA算法的不足,提出了一種改進(jìn)的算法WISODATA,并實(shí)現(xiàn)了基于MapReduce的WISODATA算法。從UCI機(jī)器學(xué)習(xí)庫(kù)上選取知名數(shù)據(jù)集,分析和比較了ISODATA算法、基于MapReduce的ISODATA算法、WISODATA算法和基于MapReduce的WISODATA算法的聚類結(jié)果,實(shí)驗(yàn)結(jié)果表明四種算法聚類結(jié)果具有較高的準(zhǔn)確率,WISODATA與基于MapReduce的WISODATA算法均優(yōu)于ISODATA與基于MapReduce的ISOD

6、ATA算法。通過(guò)在不同大小數(shù)據(jù)集上的實(shí)驗(yàn)分析了基于MapReduce的ISODATA與WISODATA算法的性能,實(shí)驗(yàn)結(jié)果表明基于MapReduce的ISODATA與WISODATA算法具有優(yōu)良的加速比、數(shù)據(jù)伸縮率和擴(kuò)展率,適合運(yùn)行于云計(jì)算平臺(tái),可以有效地應(yīng)用于大規(guī)模數(shù)據(jù)的處理。關(guān)鍵詞:云計(jì)算;聚類算法;MapReduceISODATA;WISODATA—III—萬(wàn)方數(shù)據(jù)ResearchonMapRedueofCBasedonCloudComputingAbstractTheresearchonclusteringalgorithmshasal

7、onghistory.Fordecades,theimportanceandcrossoverwiththeotherdirectionsofresearchareaffirmedbypeople.Clusteringasamethodofunsupervisedlearningisacorn/nontechniqueforstatisticaldataanalysisinmanyfields,includingpattemrecognition,datamining,imageanalysisandmachinelearning.Withra

8、pidgrowthofIntemetdata,clusteringlarge—scaledataonasinglecomputerwillencoun

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。