資源描述:
《基于hadoop的web日志存儲及預處理優(yōu)化研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、l&[il£fll:.~HebeiUniversityofEngineering~-THadoopU1Web13~If1ilfF~!&~:~*~fmlm;........:....--~m~fX~ijj=Jt1~Jt~~~f~-v~:it~tft~4~~11*Jilf~~~:1~L@)=Jlt'9:If¥~~*J~-~~=M~~~~ffl~~.~*A~~m~m~~.~~illlim~I~m~1~!¥1!1Jt*·~x.PE!£¥1:sJ351mI¥Jr*J:g7~.:tts:itx/G151:I1orJt1m-t-AM~-i*L,tS:'N..:
2、&!lXm:§]ttffgijf1t~*.iB::;r:'PI.-@!7J~~1~)Of;fr.~11.*-~~;t;t1tP.~w:m~tJS{J~111:~iiE-=r;rm1~fflctEr-J~~-~*~I¥J~~-~-~~~~~A~-~~~Ba~~~~T~-~m~**~7Wt.*A%~am~*~OO~~~~*~*Affiffi.~tl(~Of;Jt..I-/fl.:k._!l!f"BJtJ~:if¥1:?1:it~89~$M$)1-J*J?6~A1L¥~t'It@1$illi-Tt&~,**fflJJEp,miEPMB:fi'H~~11
3、iU-'f-~{*:ff,£~tl.f~t~r*J5fr:Jf~r~tloraJ:@:*~[fl]§Y&.:~~'mHlWGtJl:tt.J:i1;:3(~JtI¥J][Ep1tf;f!l~-T-Jt:t~?c~w~~ffi~xa?*m~m*~~~~)分類號:TP311密級:公開UDC:單位代碼:10076工學碩士學位論文基于Hadoop的Web日志存儲及預處理優(yōu)化研究作者姓名:宋園園指導教師:黃偉建教授申請學位級別:工學碩士學科專業(yè):計算機科學與技術(shù)所在單位:信息與電氣工程學院授予學位單位:河北工程大學ADissertationSubmitte
4、dtoHebeiUniversityofEngineeringFortheAcademicDegreeofMasterofEngineeringStudyonWebLogStorageandPre-processingOptimizationbasedonHadoopCandidate:SongYuanyuanSupervisor:Prof.HuangWeijianAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyCollege/De
5、partment:SchoolofInformationandElectricalEngineeringHebeiUniversityofEngineeringMay,2016摘要互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等技術(shù)的發(fā)展,使得服務器上的Web日志急劇膨脹。Web日志記錄了上網(wǎng)用戶訪問Web頁面的瀏覽行為,對網(wǎng)站建設(shè)和提供精準服務具有重要的指導意義。但是,原始Web日志文件中數(shù)據(jù)的通常是不完整、冗余甚至錯誤的,直接使用這些數(shù)據(jù)進行日志分析非常困難,而且有可能得到錯誤的結(jié)果,因此,對Web日志數(shù)據(jù)進行預處理是很有必要的。同時,考慮到傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲的約束和單
6、節(jié)點數(shù)據(jù)處理方式的局限性,本文使用Hadoop的分布式處理平臺對Web日志數(shù)據(jù)進行存儲和預處理操作,主要內(nèi)容包括:(1)Web日志數(shù)據(jù)存儲面對海量Web日志的急劇增長,傳統(tǒng)存儲技術(shù)面臨建設(shè)成本高、運維復雜、擴展性有限等問題,而現(xiàn)在流行的云數(shù)據(jù)庫具有動態(tài)可擴展、高伸縮性、高吞吐性能、低成本等優(yōu)勢,因此,本課題考慮將Web日志存儲到Hadoop數(shù)據(jù)庫HBase中,充分利用集群的分布式處理優(yōu)勢。(2)HBase負載均衡優(yōu)化數(shù)據(jù)在HBase中的存儲方式在很大程度上左右著整個集群的性能,直接影響著后續(xù)讀取操作的效率。當MapReduce讀取HBase中We
7、b日志數(shù)據(jù)時可能會造成訪問“熱點”問題,本文針對這種情況提出一種改進的負載均衡算法即HBase基于子表限制的負載均衡算法,在子表分配過程中除了考慮HRegionServer的負載情況外,還考慮到切割子表region的分配情況,從而實現(xiàn)最大程度上的集群負載均衡。(3)用MapReduce對Web日志進行預處理Web日志預處理操作關(guān)系到Web挖掘的質(zhì)量,而單一節(jié)點的計算能力在處理大規(guī)模增長的Web日志上逐漸顯露出弊端,MapReduce支持大規(guī)模集群操作,本文在分析Web日志預處理過程后,從HBase中讀取數(shù)據(jù),使用MapReduce計算模型處理We
8、b日志的預處理操作。通過對比實驗,驗證了優(yōu)化后的HBase負載均衡算法在適當集群環(huán)境中可以有效解決負載訪問失衡問題,以及驗證了MapRe