資源描述:
《基于hadoop的并行化存儲和處理方法及應(yīng)用研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中圖分類號:UDC:學(xué)校代碼:10055密級:公開卷媳犬淫碩士學(xué)位論文基于Hadoop的并行化存儲和處理方法及應(yīng)用研究ResearchofparallelstorageandprocessingbasedonHadoop答辯委員會主席鱟這塾握南開大學(xué)研究生院二。一三年五月南開大學(xué)學(xué)位論文使用授權(quán)書根據(jù)《南開大學(xué)關(guān)于研究生學(xué)位論文收藏和利用管理辦法》,我校的博士、碩士學(xué)位獲得者均須向南開大學(xué)提交本人的學(xué)位論文紙質(zhì)本及相應(yīng)電子版。本人完全了解南開大學(xué)有關(guān)研究生學(xué)位論文收藏和利用的管理規(guī)定。南開大學(xué)擁有在《著作權(quán)法》規(guī)定范圍
2、內(nèi)的學(xué)位論文使用權(quán),即:(1)學(xué)位獲得者必須按規(guī)定提交學(xué)位論文(包括紙質(zhì)印刷本及電子版),學(xué)校[1_『以采用影印、縮印或其他復(fù)制手段保存研究生學(xué)位論文,并編入《南開人學(xué)博碩士學(xué)位論文全文數(shù)據(jù)庫》;(2)為教學(xué)利科研目的,學(xué)??梢詫⒐_的學(xué)位論文作為資料在圖節(jié)館等場所提供校內(nèi)師生閱讀,在校園網(wǎng)上提供論文目錄檢索、文摘以及論文全文瀏覽、下載等免費(fèi)信息服務(wù);(3)根據(jù)教育部有關(guān)規(guī)定,南開大學(xué)向教育部指定單位提交公開的學(xué)位論文;(4)學(xué)位論文作者授權(quán)學(xué)校向中國科技信息研究所及其萬方數(shù)據(jù)電子山版社和中國學(xué)術(shù)期刊(光盤)電子出版社
3、提交規(guī)定范圍的學(xué)位論文及其電子版并收入相應(yīng)學(xué)位論文數(shù)據(jù)庫,通過其相關(guān)網(wǎng)站對外進(jìn)行信息服務(wù)。同時本人保留在其他媒體發(fā)表論文的權(quán)利。非公開學(xué)位論文,保密期限內(nèi)不向外提交和提供服務(wù),解密后提交和服務(wù)同公開論文。論文電子版提交至校圖書館網(wǎng)站:墮巳;絲Q2:!!呈:至Q:!鰻墨QQ型四Q皇!Zl!璺壑:睦巳。本人承諾:本人的學(xué)位論文是在南開大學(xué)學(xué)習(xí)期間創(chuàng)作完成的作品,并已通過論文答辯;提交的學(xué)位論文電子版與紙質(zhì)本論文的內(nèi)容一致,如因不同造成不良后果由本人自負(fù)。本人同意遵守上述規(guī)定。本授權(quán)書簽署一式兩份,由研究生院和圖書館留存。作
4、者暨授權(quán)人簽字:王漁洼2013年6月5曰南開大學(xué)研究生學(xué)位論文作者信息論文題目基于Hadoop的并行化存儲和處理方法及應(yīng)用研究姓名于海濤學(xué)號2120100416答辯日期2013年5月25El論文類別博士口學(xué)歷碩土團(tuán)碩士專業(yè)學(xué)位口高校教師口同等學(xué)力碩士口院}系
5、鬣軟件學(xué)院專業(yè)計算機(jī)應(yīng)用技術(shù)聯(lián)系電話13662148068Emailnk_yuhaitao@163.com通信地址《郵編):天灃市河?xùn)|區(qū)華光里6-2.302備注:是否批準(zhǔn)為非公開論文否注:本授權(quán)書適用我校授予的所有博士、碩士的學(xué)位論文。由作者填寫(一式兩份)簽字后
6、交校圖書館,非公開學(xué)位論文須附《南開大學(xué)研究生申請非公開學(xué)位論文審批表》。南開大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工作所取得的研究成果。除文中已經(jīng)注明引用的內(nèi)容外,本學(xué)位論文的研究成果不包含任何他人創(chuàng)作的、己公開發(fā)表或者沒有公開發(fā)表的作品的內(nèi)容。對本論文所涉及的研究工作做出貢獻(xiàn)的其他個人和集體,均已在文中以明確方式標(biāo)明。本學(xué)位論文原創(chuàng)性聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者簽名:王塹透2013年6月5曰非公開學(xué)位論文標(biāo)注說明(本頁表Lfj填寫內(nèi)容須打印)根據(jù)南開大學(xué)有關(guān)規(guī)定,
7、非公開學(xué)位論文須經(jīng)指導(dǎo)教師同意、作者本人申請和相關(guān)部門批準(zhǔn)方能標(biāo)注。未經(jīng)批準(zhǔn)的均為公開學(xué)位論文,公開學(xué)位論文本說明為空白。論文題目申請密級口限制(≤2年)口秘密(≤10年)口機(jī)密(≤20年)保密期限20年月日至20年月日審批表編號批準(zhǔn)日期20年月日南開大學(xué)學(xué)位評定委員會辦公室蓋章(有效)注:限制★2年(可少于2年):秘密★10年(可少于10年);機(jī)密★20年(可少于20年)摘要在軟件管理系統(tǒng)中,數(shù)據(jù)大部分存儲在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,但當(dāng)業(yè)務(wù)復(fù)雜度的提高和數(shù)據(jù)量的4i斷增加,簡單的通過單一節(jié)點(diǎn)的數(shù)據(jù)庫處理方式已經(jīng)無法滿足
8、用戶對于希望快速獲取反饋的需求,從而影響系統(tǒng)的工作效率。因此,采用分布式來來存儲和處理海量數(shù)據(jù)為本文的卡要研究課題。本文以《教育部學(xué)位與研究生教育評估工作平臺》的專家遴選模塊的專家4評分環(huán)節(jié)為研究基礎(chǔ),針對用戶需要多次進(jìn)行遴選才能確定方案,導(dǎo)致隨著數(shù)據(jù)庫中專家信息數(shù)據(jù)的不斷增加,在有限的硬件資源下用戶需要大量的時間等待結(jié)果。其中專家評分環(huán)節(jié)占據(jù)專家遴選大部分時間,因此本文提出了采用Hadoop平臺的分布式存儲和并行計算功能來提高專家評分環(huán)節(jié)效率的解決方案。本文的主要研究思路為構(gòu)建Hadoop平臺,將Oracle數(shù)據(jù)庫中
9、的專家信息數(shù)據(jù)存儲到Hadoop的HDFS分布式文件系統(tǒng)中,通過Hadoop提供的MapReduce框架的map和reduce接口,實現(xiàn)分布式專家評分程序,并以專家分?jǐn)?shù)為鍵對專家記錄進(jìn)行排序和分組。最后,通過Oracle數(shù)據(jù)庫和Hadoop平臺下專家評分程序的實驗對比,得出隨著專家信息數(shù)據(jù)量的增加,以及現(xiàn)有數(shù)據(jù)量下隨著專家評分規(guī)則