資源描述:
《基于hadoop平臺(tái)的大數(shù)據(jù)遷移與查詢(xún)方法研究及應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、(申請(qǐng)工學(xué)碩士學(xué)位論文)基于Hadoop平臺(tái)的大數(shù)據(jù)遷移與查詢(xún)方法研究及應(yīng)用培養(yǎng)單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院學(xué)科專(zhuān)業(yè):計(jì)算機(jī)應(yīng)用技術(shù)研究生:劉珂指導(dǎo)教師:熊前興教授2014年5月萬(wàn)方數(shù)據(jù)類(lèi)號(hào)密級(jí)UDC學(xué)校代碼10497學(xué)位論文題目基于Hadoop平臺(tái)的大數(shù)據(jù)遷移與查詢(xún)方法研究及應(yīng)用英文ResearchandApplicationofBigData題目MigrationandQueryBased-onHadoopPlatform研究生姓名劉珂姓名熊前興職稱(chēng)教授學(xué)位指導(dǎo)教師單位名稱(chēng)計(jì)算機(jī)科學(xué)與技術(shù)郵編430063申請(qǐng)學(xué)位級(jí)別碩士學(xué)科專(zhuān)業(yè)名稱(chēng)計(jì)算機(jī)應(yīng)用技術(shù)論文提交日期2014.04
2、論文答辯日期2014.05學(xué)位授予單位武漢理工大學(xué)學(xué)位授予日期答辯委員會(huì)主席評(píng)閱人2014年5月萬(wàn)方數(shù)據(jù)獨(dú)創(chuàng)性聲明本人聲明,所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果,也不包含為獲得武漢理工大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示了謝意。簽名:日期:學(xué)位論文使用授權(quán)書(shū)本人完全了解武漢理工大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文
3、被查閱和借閱。本人承諾所提交的學(xué)位論文(含電子學(xué)位論文)為答辯后經(jīng)修改的最終定稿學(xué)位論文,并授權(quán)武漢理工大學(xué)可以將本學(xué)位論文的全部?jī)?nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或其他復(fù)制手段保存或匯編本學(xué)位論文。同時(shí)授權(quán)經(jīng)武漢理工大學(xué)認(rèn)可的國(guó)家有關(guān)機(jī)構(gòu)或論文數(shù)據(jù)庫(kù)使用或收錄本學(xué)位論文,并向社會(huì)公眾提供信息服務(wù)。(保密的論文在解密后應(yīng)遵守此規(guī)定)研究生(簽名):導(dǎo)師(簽名):日期萬(wàn)方數(shù)據(jù)武漢理工大學(xué)碩士學(xué)位論文摘要高效的數(shù)據(jù)管理系統(tǒng)對(duì)于數(shù)據(jù)應(yīng)用管理非常重要,然而數(shù)據(jù)規(guī)模的持續(xù)增長(zhǎng)、數(shù)據(jù)類(lèi)型的不斷變化、非結(jié)構(gòu)化數(shù)據(jù)成為存儲(chǔ)和處理對(duì)象等因素,逐漸動(dòng)搖了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的主導(dǎo)地位,僅
4、僅使用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)已經(jīng)不能很好地解決上述問(wèn)題,不能滿(mǎn)足經(jīng)濟(jì)有效的存儲(chǔ)、分析和訪(fǎng)問(wèn)數(shù)據(jù)。Hadoop由于對(duì)底層存儲(chǔ)和并行處理透明化,同時(shí)擁有高性能的集群計(jì)算和存儲(chǔ)能力,在分布式計(jì)算和大量數(shù)據(jù)處理方面脫穎而出。然而使用Hadoop平臺(tái)對(duì)大數(shù)據(jù)進(jìn)行處理,并實(shí)現(xiàn)高效率查詢(xún),需要對(duì)Hadoop與關(guān)系型數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的遷移,將數(shù)據(jù)導(dǎo)入到Hadoop中進(jìn)行分析處理,使用Hadoop來(lái)優(yōu)化數(shù)據(jù)庫(kù)核心工作效率及數(shù)據(jù)庫(kù)性能、完成不斷更新的查詢(xún)需求。本文在討論研究Hadoop平臺(tái)相關(guān)架構(gòu)及數(shù)據(jù)交換原理的基礎(chǔ)上,對(duì)基于Hadoop平臺(tái)的數(shù)據(jù)遷移提出了MapReduce技術(shù)的實(shí)現(xiàn)方案,MapR
5、educe可以實(shí)現(xiàn)更優(yōu)的并發(fā)性,從而可以體現(xiàn)優(yōu)化數(shù)據(jù)轉(zhuǎn)換的能力。首先深入分析MapReduce工作機(jī)制,及Hadoop三種常用的作業(yè)調(diào)度器。在此基礎(chǔ)上,對(duì)MapReduce的作業(yè)調(diào)度器進(jìn)行優(yōu)化設(shè)計(jì),將公平調(diào)度器與優(yōu)先權(quán)(高響應(yīng)比優(yōu)先)調(diào)度算法相結(jié)合,提出了基于優(yōu)先權(quán)的公平調(diào)度器的改進(jìn)算法,同時(shí)以TaskTracker的負(fù)載均衡監(jiān)聽(tīng)器輔助進(jìn)行調(diào)度工作。然后分析HBase和Hive各自的工作機(jī)制,對(duì)Hive-HBase相結(jié)合的數(shù)據(jù)查詢(xún)方法進(jìn)行探討,設(shè)計(jì)了一個(gè)基于Hive-HBase的數(shù)據(jù)查詢(xún)方案。最后,搭建實(shí)驗(yàn)環(huán)境對(duì)基于Hadoop平臺(tái)的數(shù)據(jù)遷移及數(shù)據(jù)查詢(xún)進(jìn)行實(shí)驗(yàn)與分析,對(duì)比基
6、于不同調(diào)度算法的遷移性能,以及對(duì)比原系統(tǒng)與Hive-HBase相結(jié)合的查詢(xún)方案二者進(jìn)行數(shù)據(jù)查詢(xún)的效率。經(jīng)過(guò)實(shí)驗(yàn)分析,驗(yàn)證了本文構(gòu)建基于Hadoop平臺(tái)包括數(shù)據(jù)遷移和查詢(xún)的完整數(shù)據(jù)處理的方案是可行的。數(shù)據(jù)遷移過(guò)程中對(duì)調(diào)度算法的優(yōu)化提高了數(shù)據(jù)遷移性能,同時(shí),使用Hadoop平臺(tái)對(duì)大數(shù)據(jù)進(jìn)行處理與傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)相比,在查詢(xún)效率上體現(xiàn)其優(yōu)勢(shì)。因此,本文在對(duì)大數(shù)據(jù)進(jìn)行處理上有一定參考價(jià)值。關(guān)鍵詞:Hadoop,MapReduce,HBase,Hive,數(shù)據(jù)遷移,數(shù)據(jù)查詢(xún)I萬(wàn)方數(shù)據(jù)武漢理工大學(xué)碩士學(xué)位論文AbstractEfficientdatamanagementsystemisqu
7、iteimportanttodataapplicationmanagement,however,becausethedatasizeiscontinualgrowing,thedatatypeischanging,andtheunstructureddataisbecominganessentialpartofdatastorageandprocessing,thedominanceofrelationaldatabasesisshakengradually.Usingrelationaldatabasescan’