mapreduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究

mapreduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究

ID:35175330

大?。?.23 MB

頁數(shù):70頁

時間:2019-03-20

mapreduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究_第1頁
mapreduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究_第2頁
mapreduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究_第3頁
mapreduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究_第4頁
mapreduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究_第5頁
資源描述:

《mapreduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、中文圖書分類號:TP391密級:公開UDC:004學(xué)校代碼:10005碩士學(xué)位論文MASTERALDISSERTATION論文題目:MapReduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究論文作者:王華慈學(xué)科:計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師:陳彩論文提交日期:2016年6月UDC:004學(xué)校代碼:10005中文圖書分類號:TP391學(xué)號:S201307007密級:公開北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文題目:MapReduce型海量數(shù)據(jù)處理平臺中數(shù)據(jù)放置技術(shù)研究英文題目:RESEARCHONDATAPLACEMENTTECHNOLOGYINMAPREDUCE-STYLEDDA

2、TAPROCESSINGPLATFORM論文作者:王華慈學(xué)科專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)研究方向:計(jì)算機(jī)軟件與理論申請學(xué)位:工學(xué)碩士指導(dǎo)教師:陳彩副教授所在單位:計(jì)算機(jī)學(xué)院答辯日期:2016年6月授予學(xué)位單位:北京工業(yè)大學(xué)獨(dú)創(chuàng)性聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。簽名:王華慈日期:2016年

3、6月20日關(guān)于論文使用授權(quán)的說明本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽名:王華慈日期:2016年6月20日導(dǎo)師簽名:陳彩日期:2016年6月20日摘要摘要MapReduce型數(shù)據(jù)處理平臺(以下簡稱“MapReduce平臺”)是海量數(shù)據(jù)處理領(lǐng)域的最新技術(shù)之一。數(shù)據(jù)本地化處理是MapReduce平臺的新特征,即將海量數(shù)據(jù)基于計(jì)算節(jié)點(diǎn)的本地磁盤分布存儲且計(jì)算任務(wù)盡可能被調(diào)度到數(shù)據(jù)所在節(jié)

4、點(diǎn)運(yùn)行,從而降低數(shù)據(jù)處理中數(shù)據(jù)遠(yuǎn)程訪問導(dǎo)致的通信開銷,提高處理效率。因此,提升數(shù)據(jù)本地化處理幾率是MapReduce平臺追求的重要目標(biāo)。數(shù)據(jù)放置是數(shù)據(jù)處理平臺的核心技術(shù)之一,實(shí)現(xiàn)將數(shù)據(jù)在平臺所有存儲節(jié)點(diǎn)間合理有效地分布存儲。與傳統(tǒng)數(shù)據(jù)處理平臺不同,海量數(shù)據(jù)基于計(jì)算節(jié)點(diǎn)存儲及數(shù)據(jù)本地化處理的新特征使得MapReduce平臺中數(shù)據(jù)放置決策不僅需要服務(wù)于數(shù)據(jù)存儲效率,更需要服務(wù)于數(shù)據(jù)計(jì)算效率。既有的數(shù)據(jù)放置技術(shù)多以提升數(shù)據(jù)訪問效率,減少數(shù)據(jù)I/O瓶頸為目標(biāo)。上述技術(shù)運(yùn)用于MapReduce平臺,由于未考慮數(shù)據(jù)存儲節(jié)點(diǎn)的計(jì)算負(fù)載特征,難以避免將熱點(diǎn)數(shù)據(jù)存儲于高計(jì)算負(fù)載

5、的節(jié)點(diǎn),從而導(dǎo)致數(shù)據(jù)本地化處理幾率降低的問題。本文針對上述問題,開展以提升數(shù)據(jù)本地化處理幾率為目標(biāo)的MapReduce平臺數(shù)據(jù)放置技術(shù)研究,通過在數(shù)據(jù)放置決策中引入數(shù)據(jù)塊副本被本地化訪問的比例、計(jì)算節(jié)點(diǎn)剩余計(jì)算資源等新因素,提升數(shù)據(jù)處理效率。本文的主要貢獻(xiàn)包括:(1)定義了數(shù)據(jù)放置決策信息集。針對MapReduce平臺的新特征,本文定義了數(shù)據(jù)放置決策所需要的信息集,在該信息集中首次引入了數(shù)據(jù)塊副本的訪問頻次、數(shù)據(jù)塊副本被本地化訪問的比例和節(jié)點(diǎn)的剩余計(jì)算資源等信息,作為數(shù)據(jù)放置新的決策因子。(2)設(shè)計(jì)并實(shí)現(xiàn)了決策信息獲取機(jī)制。本文定義了數(shù)據(jù)放置的決策信息獲取機(jī)制

6、,包括信息采集、信息統(tǒng)計(jì)與預(yù)測和信息匯總。設(shè)計(jì)了基于主從結(jié)構(gòu)的決策信息獲取框架,將信息采集和統(tǒng)計(jì)預(yù)測功能分離于平臺各個計(jì)算節(jié)點(diǎn)(從節(jié)點(diǎn))完成,中心節(jié)點(diǎn)僅完成信息匯總功能,降低中心節(jié)點(diǎn)的負(fù)載壓力。同時,本文設(shè)計(jì)了基于灰色預(yù)測模型的決策信息預(yù)測機(jī)制。(3)設(shè)計(jì)并實(shí)現(xiàn)了既有數(shù)據(jù)塊副本放置的動態(tài)調(diào)整策略。分析決策因子與數(shù)據(jù)塊副本及數(shù)據(jù)節(jié)點(diǎn)的關(guān)系,設(shè)計(jì)了數(shù)據(jù)塊副本評價值及節(jié)點(diǎn)評價值的計(jì)算方法。根據(jù)評價值篩選得到待遷移的數(shù)據(jù)塊副本集合和遷移目標(biāo)候選節(jié)點(diǎn)的集合,以兼顧系統(tǒng)的容錯能力并最大化數(shù)據(jù)塊副本的本地化訪問幾率為目標(biāo),重新放置數(shù)據(jù)塊副本。(4)設(shè)計(jì)并實(shí)現(xiàn)了新增數(shù)據(jù)塊副本

7、的放置策略。在向分布式文件系統(tǒng)中寫數(shù)據(jù)時,從機(jī)架隨機(jī)選擇出候選節(jié)點(diǎn)集合,向候選節(jié)點(diǎn)集合中剩余資源最多的節(jié)-I-北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文點(diǎn)放置數(shù)據(jù)塊副本,提高該數(shù)據(jù)塊副本被本地化訪問的幾率,同時主動地調(diào)整了各節(jié)點(diǎn)的存儲資源使用量。(5)搭建仿真環(huán)境并完成性能測試。對仿真軟件CloudSim進(jìn)行擴(kuò)展,配置了由上百個節(jié)點(diǎn)構(gòu)成的MapReduce仿真平臺。在相同的作業(yè)和數(shù)據(jù)提交量下,對改進(jìn)的數(shù)據(jù)塊副本放置策略與HDFS默認(rèn)數(shù)據(jù)副本放置策略在作業(yè)平均執(zhí)行時間等多個指標(biāo)上進(jìn)行了性能對比。結(jié)果表明,本文提出的數(shù)據(jù)塊副本放置技術(shù)使得作業(yè)平均執(zhí)行時間平均下降了12.03%.

8、關(guān)鍵詞:MapReduce;HDFS;

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。