資源描述:
《基于mapreduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、武漢郵電科學(xué)研究院碩士學(xué)位論文基于MapReduce的海量關(guān)系數(shù)據(jù)處理技術(shù)設(shè)計(jì)與優(yōu)化DesignandOptimizationofMassiveRelationalDataProcessingTechnologyBasedonMapReduce專業(yè):通信與信息系統(tǒng)研究方向:大數(shù)據(jù)與云計(jì)算導(dǎo)師:盧山研究生:黃奇鵬學(xué)號:20150017二〇一八年一月武漢郵電科學(xué)研究院碩士學(xué)位論文摘要隨著1995年因特網(wǎng)向全世界發(fā)展開始,信息技術(shù)的迅猛成長,數(shù)據(jù)也呈現(xiàn)出“海量化”的趨勢。關(guān)系數(shù)據(jù)是數(shù)據(jù)直接或間接存在著關(guān)聯(lián)的體現(xiàn),這些數(shù)據(jù)隱含了各種關(guān)系網(wǎng)絡(luò),于是人們逐漸開始關(guān)注海量的關(guān)系數(shù)
2、據(jù)的處理的研究。近幾年,關(guān)于海量數(shù)據(jù)的去重、連接查詢處理及其優(yōu)化技術(shù)逐漸成為研究熱點(diǎn)。為了減少海量關(guān)系數(shù)據(jù)冗余的影響,提升其連接查詢的效率,本文借鑒傳統(tǒng)海量關(guān)系數(shù)據(jù)處理技術(shù)的經(jīng)驗(yàn),提出基于MapReduce的海量關(guān)系數(shù)據(jù)處理系統(tǒng),并對該系統(tǒng)設(shè)計(jì)思路、體系結(jié)構(gòu)、處理流程進(jìn)行了論述。首先以海量WiFi上下線日志去重處理為例,將大規(guī)模并行數(shù)據(jù)處理框架MapReduce應(yīng)用于海量關(guān)系數(shù)據(jù)去重處理之中。然后設(shè)計(jì)了基于MapReduce連接查詢處理方法,通過基于Reduce的連接與基于Map的連接方法解決了兩表連接查詢與多表連接查詢的處理問題。接著對MapReduce進(jìn)行了改進(jìn)
3、,通過將Map階段產(chǎn)生的中間結(jié)果與歷史數(shù)據(jù)同時(shí)作為輸入,以流的方式推送給后一個(gè)任務(wù)的Map,進(jìn)而讓數(shù)據(jù)在MapReduce作業(yè)間全局共享。在進(jìn)入Reduce階段前重寫partition對數(shù)據(jù)重新分區(qū)進(jìn)而解決了MapReduce海量上下線日志數(shù)據(jù)去重統(tǒng)計(jì)內(nèi)存溢出的不足。同時(shí)針對關(guān)系數(shù)據(jù)連接查詢?nèi)蝿?wù)的特點(diǎn),回顧了SMapReduce框架的優(yōu)化思路,在此基礎(chǔ)上,提出了Commander連接查詢處理算法。通過增加Commander節(jié)點(diǎn),用于接收,存儲并更新少量全局信息,全局信息經(jīng)過該節(jié)點(diǎn)與每個(gè)Map節(jié)點(diǎn)通信,進(jìn)而對map的數(shù)據(jù)進(jìn)行過濾,避免了對無用元組的傳遞和排序,降低了處
4、理代價(jià),提高了連接查詢處理算法的效率。最后通過實(shí)驗(yàn)對傳統(tǒng)去重技術(shù)與MapReduce以及改進(jìn)系統(tǒng)進(jìn)行去重性能對比測試,檢測了去重流程的改進(jìn)性能,改進(jìn)系統(tǒng)的在海量數(shù)據(jù)的背景下,有著良好的運(yùn)行效率,且避免了內(nèi)存的溢出問題;同時(shí)通過實(shí)驗(yàn)將改進(jìn)后系統(tǒng)分別與MapReduce、SMapReduce進(jìn)行連接查詢性能對比測試,進(jìn)而檢測連接查詢的改進(jìn)性能。結(jié)果表明改進(jìn)框架能夠有效地處理連接查詢,過濾掉大量的不必要中間輸出,具有良好的性能。關(guān)鍵詞:MapReduce;數(shù)據(jù)處理;數(shù)據(jù)去重;查詢處理;關(guān)系數(shù)據(jù)I武漢郵電科學(xué)研究院碩士學(xué)位論文AbstractWiththebeginning
5、oftheInternettotheworldin1995andtherapidgrowthofinformationtechnology,thedataalsoshowedatrendof"massification."Relationaldataisthedatadirectlyorindirectlyrelatedtotheexistenceofthesedataimpliedavarietyofrelationships,sopeoplebegantopayattentiontotheprocessingofmassivedataprocessing.Inr
6、ecentyears,heavydata,connectionqueryprocessingandoptimizationtechniqueshavegraduallybecometheresearchfocus.Inordertoreducetheimpactofmassdataredundancyandimprovetheefficiencyofqueryconnection,thisthesisdrawsontheexperienceoftraditionalmassdataprocessingtechnologyandputsforwardamassdata
7、processingsystembasedonMapReduce.Thedesignconcept,architectureandprocessofthesystemDiscussed.FirstofallmassiveWiFiloglinetoheavyprocessingasanexample,thelarge-scaleparalleldataprocessingframeworkMapReduceappliedtothemassiverelationaldatadeduplication.Then,themethodofqueryprocessingba