資源描述:
《基于MapReduce并行處理框架的大數(shù)據(jù)處理系統(tǒng)的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、—————————————————————基于MapReduce并行處理框架的大數(shù)據(jù)處理系統(tǒng)的研究—————————————————————ResearchonBigDataProcessingSystemBasedonMapReduceParallelProcessingFramework作者姓名:李志斌領(lǐng)域(方向):電子與通信工程指導(dǎo)教師:李莉副教授類別:工程碩士答辯日期:年月日未經(jīng)本論文作者的書面授權(quán),依法收存和保管本論文書面版本、電子版本的任何單位和個(gè)人,均不得對本論文的全部或部分內(nèi)容進(jìn)行任何形式的
2、復(fù)制、修改、發(fā)行、出租、改編等有礙作者著作權(quán)的商業(yè)性使用(但純學(xué)術(shù)性使用不在此限)。否則,應(yīng)承擔(dān)侵權(quán)的法律責(zé)任。吉林大學(xué)碩士學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交學(xué)位論文,是本人在指導(dǎo)教師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:2018年月日《中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫》投稿聲明研究生院:
3、本人同意《中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫》出版章程的內(nèi)容,愿意將本人的學(xué)位論文委托研究生院向中國學(xué)術(shù)期刊(光盤版)電子雜志社的《中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫》投稿,希望《中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫》給予出版,并同意在《中國博碩士學(xué)位論文評價(jià)數(shù)據(jù)庫》和CNKI系列數(shù)據(jù)庫中使用,同意按章程規(guī)定享受相關(guān)權(quán)益。論文級別:■碩士□博士學(xué)科專業(yè):通信工程論文題目:基于MapReduce并行處理框架的大數(shù)據(jù)處理系統(tǒng)的研究作者簽名:指導(dǎo)教師簽名:2018年月日作者聯(lián)系地址(郵編):吉林省長春市寬城區(qū)青島路8號1
4、30021作者聯(lián)系電話:18643192912摘要基于MapReduce并行處理框架的大數(shù)據(jù)處理系統(tǒng)的研究近年來,隨著科技的進(jìn)步與發(fā)展,數(shù)據(jù)采集終端數(shù)量的上升,人們不可避免的會(huì)在日常工作與生活當(dāng)中面對數(shù)量龐大、種類繁多的數(shù)據(jù)信息。人們?nèi)绾翁幚砼c利用這些海量數(shù)據(jù)也決定了人們在生產(chǎn)生活中的決策行為將不再是基于過去的經(jīng)驗(yàn)與直覺,而是轉(zhuǎn)變?yōu)橥ㄟ^對相應(yīng)數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,從而得到在海量數(shù)據(jù)指導(dǎo)下的策略選擇。大數(shù)據(jù)處理系統(tǒng)作為大數(shù)據(jù)技術(shù)中的重要研究內(nèi)容,通過不同數(shù)據(jù)架構(gòu)以及數(shù)據(jù)處理算法來滿足不同業(yè)務(wù)類型的大數(shù)據(jù)存儲以及處
5、理要求,具有重要的研究意義?,F(xiàn)有成果從不同方面對大數(shù)據(jù)的存儲以及處理提出了不同的解決方法,但仍有不足。例如,大數(shù)據(jù)的數(shù)據(jù)量雖然巨大,但是針對某一產(chǎn)業(yè)或某一方面的大數(shù)據(jù)具有一定的數(shù)據(jù)特征,如今的數(shù)據(jù)處理系統(tǒng)并未充分利用這些特征,也無法利用大數(shù)據(jù)之間的特征關(guān)系進(jìn)行數(shù)據(jù)處理,難以優(yōu)化整個(gè)大數(shù)據(jù)處理系統(tǒng)。1.本文在對大數(shù)據(jù)處理系統(tǒng)的關(guān)鍵技術(shù)進(jìn)行構(gòu)想與研究的基礎(chǔ)上,首先采用Hadoop架構(gòu)來搭建系統(tǒng)實(shí)驗(yàn)平臺。通過操作MapReduce模型預(yù)留出的Map映射函數(shù)接口完成針對數(shù)據(jù)采集終端數(shù)據(jù)的粗處理過程,再根據(jù)Map函數(shù)
6、的輸出結(jié)果調(diào)用相應(yīng)的Reduce函數(shù)完成大數(shù)據(jù)的規(guī)約化處理,從而挖掘出相應(yīng)海量數(shù)據(jù)的數(shù)據(jù)特征。同時(shí),利用MapReduce函數(shù)優(yōu)化了大數(shù)據(jù)處理系統(tǒng)的整體存儲性能,使得大數(shù)據(jù)信息的存儲變得更加的合理、可靠。2.針對不同類型的大數(shù)據(jù)信息各自具有獨(dú)特的數(shù)據(jù)特征的特點(diǎn),本文將傳統(tǒng)的基于內(nèi)存的PageRank算法引入到基于MapReduce數(shù)據(jù)處理模型的大數(shù)據(jù)處理系統(tǒng)當(dāng)中。針對數(shù)據(jù)處理中對于圖數(shù)據(jù)以及高維數(shù)據(jù)的處理往往涉及多次迭代以及不同計(jì)算機(jī)之間的大量網(wǎng)絡(luò)通信的缺點(diǎn),通過合理劃分子圖,保證數(shù)據(jù)的迭代發(fā)生在圖數(shù)據(jù)以及
7、多維數(shù)據(jù)被合理劃分的子圖內(nèi);以及合理確定內(nèi)部節(jié)點(diǎn)和外部節(jié)點(diǎn)來避免不同計(jì)算機(jī)之間的數(shù)據(jù)通信發(fā)生在整個(gè)大數(shù)據(jù)整體上,從而降低網(wǎng)絡(luò)通信所需要的帶寬。同時(shí),將基于內(nèi)存的PageRank算法運(yùn)用到多維數(shù)據(jù)和圖數(shù)據(jù)的子圖數(shù)據(jù)的多次迭代當(dāng)中,從而保證了整個(gè)大數(shù)據(jù)處理系統(tǒng)既有普通PageRank算法的效率,也能夠異步的擴(kuò)展在不同系統(tǒng)的計(jì)算機(jī)實(shí)驗(yàn)平臺上。3.本文采用兩個(gè)大規(guī)模高維數(shù)據(jù)以及圖數(shù)據(jù)集,分別是LiveJournal數(shù)據(jù)集I以及FaceBook數(shù)據(jù)集。LiveJournal數(shù)據(jù)集包含4847571個(gè)數(shù)據(jù)節(jié)點(diǎn),6899
8、3773個(gè)數(shù)據(jù)邊,LiveJournal數(shù)據(jù)集來源于網(wǎng)站www.livejournal.com。FaceBook數(shù)據(jù)集包含957359個(gè)數(shù)據(jù)節(jié)點(diǎn)和161933115條數(shù)據(jù)邊。實(shí)驗(yàn)所用計(jì)算機(jī)均安裝Ubuntu9.04,32位操作系統(tǒng)以及Java1.6和Hadoop0.20.2進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的大數(shù)據(jù)處理系統(tǒng)可以提高數(shù)據(jù)處理速度,降低系統(tǒng)所需通信帶寬。關(guān)鍵詞:大數(shù)據(jù)處理,Hadoop平臺,MapRed