基于hadoop的web日志存儲及預處理優(yōu)化研究

ID：35056929

大?。?.45 MB

頁數(shù)：70頁

時間：2019-03-17

資源描述：

《基于hadoop的web日志存儲及預處理優(yōu)化研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、l&[il￡fll:.~HebeiUniversityofEngineering~-THadoopU1Web13~If1ilfF~!&~:~*~fmlm;........:....--~m~fX~ijj=Jt1~Jt~~~f~-v~:it~tft~4~~11*Jilf~~~:1~L@)=Jlt'9:If￥~~*J~-~~=M~~~~ffl~~.~*A~~m~m~~.~~illlim~I~m~1~!￥1!1Jt*·~x.PE!￡￥1:sJ351mI￥Jr*J:g7~.:tts:itx/G151:I1orJt1m-t-AM~-i*L,tS:'N..:

2、&!lXm:§]ttffgijf1t~*.iB::;r:'PI.-@!7J~~1~)Of;fr.~11.*-~~;t;t1tP.~w:m~tJS{J~111:~iiE-=r;rm1~fflctEr-J~~-~*~I￥J~~-~-~~~~~A~-~~~Ba~~~~T~-~m~**~7Wt.*A%~am~*~OO~~~~*~*Affiffi.~tl(~Of;Jt..I-/fl.:k._!l!f"BJtJ~:if￥1:?1:it~89~$M$)1-J*J?6~A1L￥~t'It@1$illi-Tt&~,**fflJJEp,miEPMB:fi'H~~11

3、iU-'f-~{*:ff,￡~tl.f~t~r*J5fr:Jf~r~tloraJ:@:*~[fl]§Y&.:~~'mHlWGtJl:tt.J:i1;:3(~JtI￥J][Ep1tf;f!l~-T-Jt:t~?c~w~~ffi~xa?*m~m*~~~~)分類號：TP311密級：公開UDC：單位代碼：10076工學碩士學位論文基于Hadoop的Web日志存儲及預處理優(yōu)化研究作者姓名：宋園園指導教師：黃偉建教授申請學位級別：工學碩士學科專業(yè)：計算機科學與技術(shù)所在單位：信息與電氣工程學院授予學位單位：河北工程大學ADissertationSubmitte

4、dtoHebeiUniversityofEngineeringFortheAcademicDegreeofMasterofEngineeringStudyonWebLogStorageandPre-processingOptimizationbasedonHadoopCandidate：SongYuanyuanSupervisor：Prof.HuangWeijianAcademicDegreeAppliedfor：MasterofEngineeringSpecialty：ComputerScienceandTechnologyCollege/De

5、partment：SchoolofInformationandElectricalEngineeringHebeiUniversityofEngineeringMay,2016摘要互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等技術(shù)的發(fā)展，使得服務器上的Web日志急劇膨脹。Web日志記錄了上網(wǎng)用戶訪問Web頁面的瀏覽行為，對網(wǎng)站建設(shè)和提供精準服務具有重要的指導意義。但是，原始Web日志文件中數(shù)據(jù)的通常是不完整、冗余甚至錯誤的，直接使用這些數(shù)據(jù)進行日志分析非常困難，而且有可能得到錯誤的結(jié)果，因此，對Web日志數(shù)據(jù)進行預處理是很有必要的。同時，考慮到傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲的約束和單

6、節(jié)點數(shù)據(jù)處理方式的局限性，本文使用Hadoop的分布式處理平臺對Web日志數(shù)據(jù)進行存儲和預處理操作，主要內(nèi)容包括：（1）Web日志數(shù)據(jù)存儲面對海量Web日志的急劇增長，傳統(tǒng)存儲技術(shù)面臨建設(shè)成本高、運維復雜、擴展性有限等問題，而現(xiàn)在流行的云數(shù)據(jù)庫具有動態(tài)可擴展、高伸縮性、高吞吐性能、低成本等優(yōu)勢，因此，本課題考慮將Web日志存儲到Hadoop數(shù)據(jù)庫HBase中，充分利用集群的分布式處理優(yōu)勢。（2）HBase負載均衡優(yōu)化數(shù)據(jù)在HBase中的存儲方式在很大程度上左右著整個集群的性能，直接影響著后續(xù)讀取操作的效率。當MapReduce讀取HBase中We

7、b日志數(shù)據(jù)時可能會造成訪問“熱點”問題，本文針對這種情況提出一種改進的負載均衡算法即HBase基于子表限制的負載均衡算法，在子表分配過程中除了考慮HRegionServer的負載情況外，還考慮到切割子表region的分配情況，從而實現(xiàn)最大程度上的集群負載均衡。（3）用MapReduce對Web日志進行預處理Web日志預處理操作關(guān)系到Web挖掘的質(zhì)量，而單一節(jié)點的計算能力在處理大規(guī)模增長的Web日志上逐漸顯露出弊端，MapReduce支持大規(guī)模集群操作，本文在分析Web日志預處理過程后，從HBase中讀取數(shù)據(jù)，使用MapReduce計算模型處理We

8、b日志的預處理操作。通過對比實驗，驗證了優(yōu)化后的HBase負載均衡算法在適當集群環(huán)境中可以有效解決負載訪問失衡問題，以及驗證了MapRe

當前文檔最多預覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 70



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于hadoop的web日志存儲及預處理優(yōu)化研究

基于hadoop的web日志存儲及預處理優(yōu)化研究

相關(guān)文章

相關(guān)標簽