基于hadoop平臺的web日志業(yè)務分析

基于hadoop平臺的web日志業(yè)務分析

ID:32636440

大?。?4.67 KB

頁數(shù):6頁

時間:2019-02-14

基于hadoop平臺的web日志業(yè)務分析_第1頁
基于hadoop平臺的web日志業(yè)務分析_第2頁
基于hadoop平臺的web日志業(yè)務分析_第3頁
基于hadoop平臺的web日志業(yè)務分析_第4頁
基于hadoop平臺的web日志業(yè)務分析_第5頁
資源描述:

《基于hadoop平臺的web日志業(yè)務分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于Hadoop平臺的Web日志業(yè)務分析張俊瑞代洋晉中學院信息技術(shù)與工程學院北京易匯眾盟網(wǎng)絡技術(shù)有限公司摘要:通過分析網(wǎng)站口志文件,可以清楚地知道一個網(wǎng)站每天的頁面訪問量、用戶訪問量、獨立IP數(shù)、用戶通過什么渠道和設備訪問網(wǎng)站等,這樣企業(yè)就可以通過對網(wǎng)站FI志文件進行數(shù)據(jù)分析進而對網(wǎng)站進行多方面的優(yōu)化建設。利用Hadoop平臺存儲并計算海量日志文件,利用Hive進行數(shù)據(jù)倉庫建設和數(shù)據(jù)分析,使得數(shù)據(jù)更具有說服力,真正實現(xiàn)了讓數(shù)據(jù)驅(qū)動業(yè)務,進而驅(qū)動公司發(fā)展。關(guān)鍵詞:大數(shù)據(jù)平臺;H志業(yè)務分析;數(shù)據(jù)倉庫;

2、作者簡介:張俊瑞(1980-),女,山西襄汾人,講師,碩士研究生,主要研究領(lǐng)域為數(shù)據(jù)挖掘、智能軟件技術(shù)。收稿日期:2017-10-30AnalysisofWebLogServiceBasedonHadoopPlatformZhangJunruiDaiYangSchoolofInformationTechnologyandEngineering,JinzhongUniversity;BeijingZMTNetworkTechnologyCo.,Ltd.;Abstract:Byanab^zingthe

3、weblogfile,somedataofawebsitechilycouldbeobtained,suchasamountofpagevisit,independentIPnumbers,numberofuservisiting,whatchannelsanddevicesusersaccesstothewebsite.Tnthisway,theenterprisecouldanalyzethedataofthewebsitelogfileandoptimizethewebsitcinmanya

4、spccts.Iladoopplatformisusedtostoreandcalculatemassivelogfiles,thedatawarehouseconstructionanddataanalysisarecarriedoutbyusingHive,whichwouldmakedatamoreconvincingandresultsmoreintuitive.Itreallyenablestherealizingofdatadriven-businessandpromotestheco

5、mpany‘sdevelopment.Keyword:bigdataplatform;logbusinessanalysis;visualizetion;datawarehouse;Received:2017-10-30Web2.0時代的到來,使網(wǎng)站日志數(shù)據(jù)的增長速度及交互功能都發(fā)生了很大的變化。利用傳統(tǒng)的日志分析工具很難實現(xiàn)PB數(shù)量級的網(wǎng)站日志的處理,因此需要優(yōu)秀、耐用且時效性強的處理平臺和分析工具來進行數(shù)據(jù)處理和分析,以便更好地完成網(wǎng)站的優(yōu)化,提高網(wǎng)站訪問量,創(chuàng)造更大的商業(yè)價值。從互聯(lián)網(wǎng)發(fā)展趨

6、勢和行業(yè)內(nèi)成功經(jīng)驗及案例來看,Hadoop+Hive已成為高效處理龐大數(shù)量級數(shù)據(jù)的平臺和分析工具。木文通過Hadoop+Hive實現(xiàn)Web日志業(yè)務分析及其可視化。首先搭建人數(shù)據(jù)集群平臺Hadoop,其次建設數(shù)據(jù)倉庫Hive對網(wǎng)絡日志進行分析,最后將一些業(yè)務指標通過可視化技術(shù)直觀展示出來。1Hadoop集群平臺搭建1.1環(huán)境準備物理機硬件:處理器采用Tntel(R)Core(TM)i7~4500u1.8GHz,內(nèi)存8.0GB,操作系統(tǒng)Windows8。虛擬機系統(tǒng):基T*VMwareWorkstati

7、on創(chuàng)建了2臺虛擬機器,每臺的配置為2個單核CPU,2G內(nèi)存,30G硬盤,Ubuntu14.0.4操作系統(tǒng)。1.2平臺規(guī)劃Hedoop[l]運行在Linux系統(tǒng)上,所以0S選用Ubuntu14.0.4,其次Hadoop是基于Java語言開發(fā)的,所以必須安裝JDK1.7提供Java運行環(huán)境。安裝Hadoop包含HDFS、MapReduce、YAR三部分,其中HDFS提供分布式存儲環(huán)境,MapReduce提供批處理計算,而YARN調(diào)度資源;安裝Hive建設數(shù)據(jù)倉庫對網(wǎng)站日志進行數(shù)據(jù)分析得出對應的業(yè)務

8、指標;通過Sqoop將數(shù)據(jù)倉庫中表的數(shù)據(jù)導入到MySQL屮。平臺規(guī)劃如表1所示。表1平臺規(guī)劃下載原表1.3平臺架構(gòu)大數(shù)據(jù)平臺的系統(tǒng)架構(gòu)從底端到上層分為五層,平臺架構(gòu)圖如圖1所示。1)數(shù)據(jù)采集層:將原始網(wǎng)站日志通過腳本語言代碼按時從Web服務器上采集到Linux文件系統(tǒng)中。2)數(shù)據(jù)存儲層:在數(shù)據(jù)采集層的基礎(chǔ)上,通過ETL進行數(shù)據(jù)處理,形成供上層進行離線計算和業(yè)務分析的數(shù)據(jù)集,并最后將其存儲在HDFS分布式文件系統(tǒng)之中。3)數(shù)據(jù)分析層:數(shù)據(jù)倉庫是面向業(yè)務決策的,通過Hive數(shù)據(jù)倉庫對網(wǎng)

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。