資源描述:
《基于hdfs的小文件存儲(chǔ)模型研究與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、萬方數(shù)據(jù)分類號(hào)UDC密級(jí)學(xué)位論文基于HDFS的小文件存儲(chǔ)模型研究與實(shí)現(xiàn)作者姓名:李寧指導(dǎo)教師:呂振遼副教授東北大學(xué)計(jì)算中心申請(qǐng)學(xué)位級(jí)別:碩士學(xué)科類別:工學(xué)學(xué)科專業(yè)名稱:計(jì)算機(jī)應(yīng)用技術(shù)論文提交日期:2014年6月論文答辯日期:2014年6月21日學(xué)位授予日期:2014年7月答辯委員會(huì)主席:蕞衛(wèi)祖評(píng)閱人:趣德孕能吶東北大學(xué)2014年6月萬方數(shù)據(jù)AThesisinComputerApplicationTechnologyResearchandImplementationofSmallFileStorageModelBasedonHDFSByLiNingSupervisor:AssociateP
2、rofessorLvZhenliaoNortheasternUniversityJune2014萬方數(shù)據(jù)獨(dú)創(chuàng)性聲明本人聲明,所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的。論文中取得的研究成果除加以標(biāo)注和致謝的地方外,不包含其他人己經(jīng)發(fā)表或撰寫過的研究成果,也不包括本人為獲得其他學(xué)位而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示謝意。l學(xué)位論文作者簽名:喲日期:∽C坼‘.、I學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:即學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人同意
3、東北大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索、交流。作者和導(dǎo)師同意網(wǎng)上交流的時(shí)間為作者獲得學(xué)位后:半年13一年口學(xué)位論文作者簽名:蕩—守簽字Et期:W∽.6.1I一年半口兩年Ⅳ翮簽名:汪青陋簽字日期:洲參.6.2-1萬方數(shù)據(jù).II—萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要基于HDFS的小文件存儲(chǔ)模型研究與實(shí)現(xiàn)摘要大數(shù)據(jù)是當(dāng)前計(jì)算機(jī)領(lǐng)域研究的熱點(diǎn)問題之一。企業(yè)通過大數(shù)據(jù)分析消費(fèi)者行為,部門銷售數(shù)據(jù)等指標(biāo),能得出對(duì)企業(yè)增加市場競爭力產(chǎn)生重要作用的情報(bào)數(shù)據(jù)。隨著大數(shù)據(jù)對(duì)企業(yè)發(fā)展帶來積極的影響,越來越多的企業(yè)將利用大數(shù)據(jù),以及尋求適用于大數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)解決方案。HDFS是一個(gè)開源的分布式
4、文件系統(tǒng),因其較低的成本,良好的可靠性等特點(diǎn)而成為企業(yè)與科研院所首選的海量數(shù)據(jù)存儲(chǔ)解決方案。HDFS適用于采用流式數(shù)據(jù)訪問和存儲(chǔ)超大文件,在存儲(chǔ)大數(shù)據(jù)研究過程中產(chǎn)生的海量小文件時(shí),則表現(xiàn)出存儲(chǔ)空間不足,讀寫效率低下等問題。如何使HDFS高效存儲(chǔ)小文件,是一個(gè)十分有意義的研究方向。針對(duì)HDFS在存儲(chǔ)小文件時(shí)表現(xiàn)出的效率低下等問題,本文從磁盤、網(wǎng)絡(luò)通信和元數(shù)據(jù)等因素詳細(xì)分析小文件問題產(chǎn)生原因,并提出包含管理節(jié)點(diǎn)與工作節(jié)點(diǎn)的小文件存儲(chǔ)模型以優(yōu)化HDFS上的小文件問題。論文主要工作如下:(1)提出小文件存儲(chǔ)模型架構(gòu)。存儲(chǔ)模型是一個(gè)基于HDFS的應(yīng)用。它通過采用小文件優(yōu)化存儲(chǔ)策略,代替HDFS處理
5、客戶端的讀寫小文件請(qǐng)求,達(dá)到優(yōu)化小文件存儲(chǔ)的目的。(2)小文件合并存儲(chǔ)。即多個(gè)客戶端上傳的小文件共同保存在一個(gè)HDFS文件中,該方法能有效減少HDFS中系統(tǒng)元數(shù)據(jù)的數(shù)目,并降低HDFS讀取小文件數(shù)據(jù)的磁盤尋道時(shí)間。(3)小文件索引管理。索引管理主要包括:創(chuàng)建、序列化與反序列化小文件索引。每個(gè)工作節(jié)點(diǎn)在內(nèi)存中保存與其相關(guān)的小文件集合的索引信息。通過查詢索引表實(shí)現(xiàn)工作節(jié)點(diǎn)快速定位小文件數(shù)據(jù)在HDFS文件中的偏移地址。(4)小文件緩存管理。本文在工作節(jié)點(diǎn)的內(nèi)存和磁盤上構(gòu)建小文件緩存區(qū),保存最近寫入的和訪問頻率的小文件。緩存管理內(nèi)置多種常用緩存置換算法,有效減少工作節(jié)點(diǎn)與HDFS交互次數(shù),提高客
6、戶端訪問小文件的效率。(5)通過部署多節(jié)點(diǎn)實(shí)驗(yàn)平臺(tái),對(duì)小文件存儲(chǔ)模型進(jìn)行了讀寫性能測試。測.TTl.萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要試結(jié)果與HDFS讀寫文件性能對(duì)比發(fā)現(xiàn):小文件存儲(chǔ)模型方案具有可行性,且表現(xiàn)出良好的小文件讀寫性能。關(guān)鍵字:HDFS;小文件;分布式;合并存儲(chǔ);元數(shù)據(jù);緩存..IV..萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文AbstractResearchandImplementationofSmallFileStorageModelBasedonHDFSAbstractBigDataisoneofthehotissuesinthefieldofcomputerresearchcurre
7、ntly.Enterpriseanalysisofconsumerbehavior,departmentsalesdataandotherindicatorsthroughbigdata,cangaintheintelligencedatawhichplaysanimportantroleinincreasingthemarketcompetitivenessofenterprises.Withthebigdatapositivei