基于hadoop的web日志存儲及預處理優(yōu)化研究

基于hadoop的web日志存儲及預處理優(yōu)化研究

ID:35056929

大?。?.45 MB

頁數(shù):70頁

時間:2019-03-17

基于hadoop的web日志存儲及預處理優(yōu)化研究_第1頁
基于hadoop的web日志存儲及預處理優(yōu)化研究_第2頁
基于hadoop的web日志存儲及預處理優(yōu)化研究_第3頁
基于hadoop的web日志存儲及預處理優(yōu)化研究_第4頁
基于hadoop的web日志存儲及預處理優(yōu)化研究_第5頁
資源描述:

《基于hadoop的web日志存儲及預處理優(yōu)化研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、l&[il£fll:.~HebeiUniversityofEngineering~-THadoopU1Web13~If1ilfF~!&~:~*~fmlm;........:....--~m~fX~ijj=Jt1~Jt~~~f~-v~:it~tft~4~~11*Jilf~~~:1~L@)=Jlt'9:If¥~~*J~-~~=M~~~~ffl~~.~*A~~m~m~~.~~illlim~I~m~1~!¥1!1Jt*·~x.PE!£¥1:sJ351mI¥Jr*J:g7~.:tts:itx/G151:I1orJt1m-t-AM~-i*L,tS:'N..:

2、&!lXm:§]ttffgijf1t~*.iB::;r:'PI.-@!7J~~1~)Of;fr.~11.*-~~;t;t1tP.~w:m~tJS{J~111:~iiE-=r;rm1~fflctEr-J~~-~*~I¥J~~-~-~~~~~A~-~~~Ba~~~~T~-~m~**~7Wt.*A%~am~*~OO~~~~*~*Affiffi.~tl(~Of;Jt..I-/fl.:k._!l!f"BJtJ~:if¥1:?1:it~89~$M$)1-J*J?6~A1L¥~t'It@1$illi-Tt&~,**fflJJEp,miEPMB:fi'H~~11

3、iU-'f-~{*:ff,£~tl.f~t~r*J5fr:Jf~r~tloraJ:@:*~[fl]§Y&.:~~'mHlWGtJl:tt.J:i1;:3(~JtI¥J][Ep1tf;f!l~-T-Jt:t~?c~w~~ffi~xa?*m~m*~~~~)分類號:TP311密級:公開UDC:單位代碼:10076工學碩士學位論文基于Hadoop的Web日志存儲及預處理優(yōu)化研究作者姓名:宋園園指導教師:黃偉建教授申請學位級別:工學碩士學科專業(yè):計算機科學與技術(shù)所在單位:信息與電氣工程學院授予學位單位:河北工程大學ADissertationSubmitte

4、dtoHebeiUniversityofEngineeringFortheAcademicDegreeofMasterofEngineeringStudyonWebLogStorageandPre-processingOptimizationbasedonHadoopCandidate:SongYuanyuanSupervisor:Prof.HuangWeijianAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyCollege/De

5、partment:SchoolofInformationandElectricalEngineeringHebeiUniversityofEngineeringMay,2016摘要互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等技術(shù)的發(fā)展,使得服務器上的Web日志急劇膨脹。Web日志記錄了上網(wǎng)用戶訪問Web頁面的瀏覽行為,對網(wǎng)站建設(shè)和提供精準服務具有重要的指導意義。但是,原始Web日志文件中數(shù)據(jù)的通常是不完整、冗余甚至錯誤的,直接使用這些數(shù)據(jù)進行日志分析非常困難,而且有可能得到錯誤的結(jié)果,因此,對Web日志數(shù)據(jù)進行預處理是很有必要的。同時,考慮到傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲的約束和單

6、節(jié)點數(shù)據(jù)處理方式的局限性,本文使用Hadoop的分布式處理平臺對Web日志數(shù)據(jù)進行存儲和預處理操作,主要內(nèi)容包括:(1)Web日志數(shù)據(jù)存儲面對海量Web日志的急劇增長,傳統(tǒng)存儲技術(shù)面臨建設(shè)成本高、運維復雜、擴展性有限等問題,而現(xiàn)在流行的云數(shù)據(jù)庫具有動態(tài)可擴展、高伸縮性、高吞吐性能、低成本等優(yōu)勢,因此,本課題考慮將Web日志存儲到Hadoop數(shù)據(jù)庫HBase中,充分利用集群的分布式處理優(yōu)勢。(2)HBase負載均衡優(yōu)化數(shù)據(jù)在HBase中的存儲方式在很大程度上左右著整個集群的性能,直接影響著后續(xù)讀取操作的效率。當MapReduce讀取HBase中We

7、b日志數(shù)據(jù)時可能會造成訪問“熱點”問題,本文針對這種情況提出一種改進的負載均衡算法即HBase基于子表限制的負載均衡算法,在子表分配過程中除了考慮HRegionServer的負載情況外,還考慮到切割子表region的分配情況,從而實現(xiàn)最大程度上的集群負載均衡。(3)用MapReduce對Web日志進行預處理Web日志預處理操作關(guān)系到Web挖掘的質(zhì)量,而單一節(jié)點的計算能力在處理大規(guī)模增長的Web日志上逐漸顯露出弊端,MapReduce支持大規(guī)模集群操作,本文在分析Web日志預處理過程后,從HBase中讀取數(shù)據(jù),使用MapReduce計算模型處理We

8、b日志的預處理操作。通過對比實驗,驗證了優(yōu)化后的HBase負載均衡算法在適當集群環(huán)境中可以有效解決負載訪問失衡問題,以及驗證了MapRe

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。