基于hbase的數(shù)據(jù)壓縮技術(shù)研究

基于hbase的數(shù)據(jù)壓縮技術(shù)研究

ID:35176125

大?。?.80 MB

頁數(shù):71頁

時間:2019-03-20

基于hbase的數(shù)據(jù)壓縮技術(shù)研究_第1頁
基于hbase的數(shù)據(jù)壓縮技術(shù)研究_第2頁
基于hbase的數(shù)據(jù)壓縮技術(shù)研究_第3頁
基于hbase的數(shù)據(jù)壓縮技術(shù)研究_第4頁
基于hbase的數(shù)據(jù)壓縮技術(shù)研究_第5頁
資源描述:

《基于hbase的數(shù)據(jù)壓縮技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、'U巧r<方?。辜祝蚯桑?、.茲t'.4".參通/.—.屬攀r^I.心'£V^於r領(lǐng)節(jié)聲嚴(yán)-V.么;^\呑,/#一/,戴、.U.-W'.嗎...署.辜\一癸/琴發(fā)..\巧:.,簽i?每.巧巧_齊i襄:、n香.一.;.M.巧罕/每復(fù)7苗、呑,.乂紀(jì)■-,找7;^貧背.巧d女健裕冷.戎襲哨.\、數(shù)?^譚-、寒?^,A‘聾k冥?;知;-W-¥巧%?苗,>篆..::‘^:.:資巧.為5羞sv,巧去當(dāng).;t、參男y、-名-令讓<這H1;暮蔥音六^.靡..烤惹為.:公'r,I'4%f令,興,

2、-/:與咬;..皆,."言奈\/'啼逢;皆^:J':一.論打苦讀."-.:Vr.女若豕^絡(luò)■餐\祭讓致軍京;".尤:;聾,零,賓.\.:.'';/n.為.、v:‘.'-./豁廣?‘巧寧;游.e雜?就.警>".爲(wèi),殘-襲;,s.,備-如,超'>會\i..纖厚S脈-k1?。崳姙闃I(yè)星a>?巧^?麵/向-r73.±郎別P?擎’守.遍\?S期i在.興-’名.一.轉(zhuǎn).違t巧至空善%/,V觀.}-打.穀V孩:羣-護(hù)肖茸遊‘蠢V南京郵電大學(xué)學(xué)位論文原創(chuàng)性聲

3、明工作及取得的研究成的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行。本人聲明所呈交的研究果標(biāo)注和致謝,已我知,除了文中特別加的地方外論文中不包含其他人經(jīng)或撰寫過盡所發(fā)表,也不包含為獲得南電。巧成果京郵大學(xué)或其它教肯機(jī)構(gòu)的學(xué)位或證書而使用過的材料的研一的志對巧所做的任何貢獻(xiàn)巧己與同工作同本研在論文中作了明確的說明并示了謝意。我表^本人學(xué)位論文及涉及相關(guān),愿意資料若有不實承擔(dān)切相關(guān)的法律責(zé)任。。'>《斗研;命y曰期:H巧生簽名而本南京郵電大學(xué)學(xué)位論文使用授權(quán)聲明子文本人授權(quán)南京郵電大學(xué)可公保留并向國

4、家有關(guān)部口或機(jī)構(gòu)送交論文的印電復(fù)件和檔論文被查閱和借閩;可臥將學(xué)位論文的全部或部分進(jìn)行檢索;;允許內(nèi)容編入有關(guān)數(shù)據(jù)庫可臥用影印、縮印或掃描等復(fù)制手段保存、匯編本論文。本文電子文檔的內(nèi)容和紙質(zhì)采學(xué)位一論文的內(nèi)容相。論文的公(包括刊登)授權(quán)南京郵電大學(xué)研兒生院辦理。致布涉密學(xué)位論文在解密后適用本授權(quán)。書么。!么'午名:是師簽名;期:1研巧生簽日方ResearchonDataCompressionTechnologyBasedonHBaseThesisSubmittedtoNanjingUniversityo

5、fPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByCaihangFuSupervisor:Prof.HaiyanWangMarch2016摘要隨著大數(shù)據(jù)技術(shù)的發(fā)展以及Hadoop等大數(shù)據(jù)平臺的迅速普及與推廣,生活中產(chǎn)生的數(shù)據(jù)量呈現(xiàn)爆炸性增長的趨勢,數(shù)據(jù)種類呈現(xiàn)復(fù)雜化,存儲方式呈現(xiàn)多樣化。傳統(tǒng)的基于行存儲的大數(shù)據(jù)存儲方式并不能夠以較低的成本將大數(shù)據(jù)存儲起來。與此同時,由于數(shù)據(jù)的訪問頻度的不同,對于不同訪問級別的數(shù)據(jù)所采用的存儲方式提出了新的要求。針對以

6、上情況,結(jié)合大數(shù)據(jù)平臺下的HBase數(shù)據(jù)庫,本文對大規(guī)模數(shù)據(jù)環(huán)境下基于HBase的壓縮存儲技術(shù)進(jìn)行了研究,主要的創(chuàng)新點如下:首先,提出一種基于訪問頻度的數(shù)據(jù)分類方法:根據(jù)一段時間內(nèi)數(shù)據(jù)庫文件的訪問次數(shù)得到相應(yīng)的訪問頻度,依據(jù)各數(shù)據(jù)文件的訪問頻度及相關(guān)閾值將數(shù)據(jù)文件劃分為冷熱數(shù)據(jù)并確定具體的訪問級別。在此基礎(chǔ)之上,提出基于數(shù)據(jù)訪問級別的壓縮策略選擇方法:定義了確定數(shù)據(jù)樣本的抽樣方法,針對原有的壓縮策略選擇方法中先驗知識未必可靠的缺陷,通過添加評估層及時調(diào)整先驗知識,并在基于相鄰參照區(qū)和基于統(tǒng)計列選擇方法的基礎(chǔ)上設(shè)計出HBas

7、e數(shù)據(jù)壓縮策略選擇方法,優(yōu)化存儲成本。仿真實驗與結(jié)果表明,本文提出的方法不僅能夠有效實現(xiàn)大數(shù)據(jù)的存儲,同時還提高了數(shù)據(jù)的訪問性能。其次,從數(shù)據(jù)遷移的角度,提出一種基于文件價值的數(shù)據(jù)遷移方法。首先,根據(jù)數(shù)據(jù)訪問頻度等因素計算出數(shù)據(jù)塊文件的價值,由這個文件價值得到數(shù)據(jù)遷移的目的設(shè)備。同時改進(jìn)了數(shù)據(jù)遷移技術(shù),利用數(shù)據(jù)緩沖區(qū)和雙緩沖隊列解決了數(shù)據(jù)遷入遷出速率不匹配的問題,提高了數(shù)據(jù)遷移效率,節(jié)省了內(nèi)存和時間消耗,最終實現(xiàn)了對大數(shù)據(jù)平臺數(shù)據(jù)的存儲優(yōu)化。最后,基于以上的方法與理論,本文構(gòu)建了基于數(shù)據(jù)壓縮存儲的原型系統(tǒng)并給出一個電子商務(wù)

8、應(yīng)用示范。系統(tǒng)的實現(xiàn)遵循需求分析、概要設(shè)計、詳細(xì)設(shè)計及其實現(xiàn)等流程,完成壓縮存儲管理、數(shù)據(jù)遷移等功能模塊,驗證了本文提出算法的可行性,展現(xiàn)了基于HBase的壓縮技術(shù)理論成果在動態(tài)場景下的應(yīng)用效果。關(guān)鍵詞:冷熱數(shù)據(jù),訪問級別,HBase,數(shù)據(jù)壓縮,數(shù)據(jù)遷移IAbstractWiththedevelopme

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。