基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化

基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化

ID:23516931

大小:1.41 MB

頁數(shù):65頁

時(shí)間:2018-11-08

基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化_第1頁
基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化_第2頁
基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化_第3頁
基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化_第4頁
基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化_第5頁
資源描述:

《基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、武漢郵電科學(xué)研究院碩士學(xué)位論文基于MapReduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化DesignandOptimizationofMassiveRelationalDataProcessingTechnologyBasedonMapReduce專業(yè):通信與信息系統(tǒng)研究方向:大數(shù)據(jù)與云計(jì)算導(dǎo)師:盧山研究生:黃奇鵬學(xué)號:20150017二〇一八年一月武漢郵電科學(xué)研究院碩士學(xué)位論文摘要隨著1995年因特網(wǎng)向全世界發(fā)展開始,信息技術(shù)的迅猛成長,數(shù)據(jù)也呈現(xiàn)出“海量化”的趨勢。關(guān)系數(shù)據(jù)是數(shù)據(jù)直接或間接存在著關(guān)聯(lián)的體現(xiàn),這些數(shù)據(jù)隱含了各種關(guān)系網(wǎng)絡(luò),于是人們逐漸開始關(guān)注海量的關(guān)系數(shù)

2、據(jù)的處理的研究。近幾年,關(guān)于海量數(shù)據(jù)的去重、連接查詢處理及其優(yōu)化技術(shù)逐漸成為研究熱點(diǎn)。為了減少海量關(guān)系數(shù)據(jù)冗余的影響,提升其連接查詢的效率,本文借鑒傳統(tǒng)海量關(guān)系數(shù)據(jù)處理技術(shù)的經(jīng)驗(yàn),提出基于MapReduce的海量關(guān)系數(shù)據(jù)處理系統(tǒng),并對該系統(tǒng)設(shè)計(jì)思路、體系結(jié)構(gòu)、處理流程進(jìn)行了論述。首先以海量WiFi上下線日志去重處理為例,將大規(guī)模并行數(shù)據(jù)處理框架MapReduce應(yīng)用于海量關(guān)系數(shù)據(jù)去重處理之中。然后設(shè)計(jì)了基于MapReduce連接查詢處理方法,通過基于Reduce的連接與基于Map的連接方法解決了兩表連接查詢與多表連接查詢的處理問題。接著對MapReduce進(jìn)行了改進(jìn)

3、,通過將Map階段產(chǎn)生的中間結(jié)果與歷史數(shù)據(jù)同時(shí)作為輸入,以流的方式推送給后一個(gè)任務(wù)的Map,進(jìn)而讓數(shù)據(jù)在MapReduce作業(yè)間全局共享。在進(jìn)入Reduce階段前重寫partition對數(shù)據(jù)重新分區(qū)進(jìn)而解決了MapReduce海量上下線日志數(shù)據(jù)去重統(tǒng)計(jì)內(nèi)存溢出的不足。同時(shí)針對關(guān)系數(shù)據(jù)連接查詢?nèi)蝿?wù)的特點(diǎn),回顧了SMapReduce框架的優(yōu)化思路,在此基礎(chǔ)上,提出了Commander連接查詢處理算法。通過增加Commander節(jié)點(diǎn),用于接收,存儲并更新少量全局信息,全局信息經(jīng)過該節(jié)點(diǎn)與每個(gè)Map節(jié)點(diǎn)通信,進(jìn)而對map的數(shù)據(jù)進(jìn)行過濾,避免了對無用元組的傳遞和排序,降低了處

4、理代價(jià),提高了連接查詢處理算法的效率。最后通過實(shí)驗(yàn)對傳統(tǒng)去重技術(shù)與MapReduce以及改進(jìn)系統(tǒng)進(jìn)行去重性能對比測試,檢測了去重流程的改進(jìn)性能,改進(jìn)系統(tǒng)的在海量數(shù)據(jù)的背景下,有著良好的運(yùn)行效率,且避免了內(nèi)存的溢出問題;同時(shí)通過實(shí)驗(yàn)將改進(jìn)后系統(tǒng)分別與MapReduce、SMapReduce進(jìn)行連接查詢性能對比測試,進(jìn)而檢測連接查詢的改進(jìn)性能。結(jié)果表明改進(jìn)框架能夠有效地處理連接查詢,過濾掉大量的不必要中間輸出,具有良好的性能。關(guān)鍵詞:MapReduce;數(shù)據(jù)處理;數(shù)據(jù)去重;查詢處理;關(guān)系數(shù)據(jù)I武漢郵電科學(xué)研究院碩士學(xué)位論文AbstractWiththebeginning

5、oftheInternettotheworldin1995andtherapidgrowthofinformationtechnology,thedataalsoshowedatrendof"massification."Relationaldataisthedatadirectlyorindirectlyrelatedtotheexistenceofthesedataimpliedavarietyofrelationships,sopeoplebegantopayattentiontotheprocessingofmassivedataprocessing.Inr

6、ecentyears,heavydata,connectionqueryprocessingandoptimizationtechniqueshavegraduallybecometheresearchfocus.Inordertoreducetheimpactofmassdataredundancyandimprovetheefficiencyofqueryconnection,thisthesisdrawsontheexperienceoftraditionalmassdataprocessingtechnologyandputsforwardamassdata

7、processingsystembasedonMapReduce.Thedesignconcept,architectureandprocessofthesystemDiscussed.FirstofallmassiveWiFiloglinetoheavyprocessingasanexample,thelarge-scaleparalleldataprocessingframeworkMapReduceappliedtothemassiverelationaldatadeduplication.Then,themethodofqueryprocessingba

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。