基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

ID:33100590

大小:2.03 MB

頁(yè)數(shù):85頁(yè)

時(shí)間:2019-02-20

基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)
基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)
基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)
基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)
基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)
資源描述:

《基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、碩士學(xué)位論文(工程碩士)基于Hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)THEDESIGNANDIMPLEMENTATIONOFMASSIVEADVERTISINGLOGANALYSISSYSTEMBASEDONHADOOP章偉星2013年6月國(guó)內(nèi)圖書(shū)分類(lèi)號(hào):TP311學(xué)校代碼:10213國(guó)際圖書(shū)分類(lèi)號(hào):621.3密級(jí):公開(kāi)工程碩士學(xué)位論文基于Hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)碩士研究生:章偉星導(dǎo)師:蘇統(tǒng)華高級(jí)講師副導(dǎo)師:戚佳音高級(jí)工程師申請(qǐng)學(xué)位:工程碩士學(xué)科、專(zhuān)業(yè):軟件工程所在單位:軟件學(xué)院答辯

2、日期:2013年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFMASSIVEADVERTISINGLOGANALYSISSYSTEMBASEDONHADOOPCandidate:ZhangWeixingSupervisor:SeniorLecturerSuTonghuaAssociateSupervisor:Seni

3、orEngineerQiJiayinAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2013Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要百度鳳巢是百度推出的全新廣告拍賣(mài)系統(tǒng),其以每天數(shù)以?xún)|計(jì)的網(wǎng)頁(yè)搜索量為強(qiáng)大后盾,為推

4、廣商戶(hù)帶來(lái)巨大經(jīng)濟(jì)效益的同時(shí)也為百度帶來(lái)了巨大的經(jīng)濟(jì)收入,截至2010年第三季度末,來(lái)自鳳巢的營(yíng)收已占百度總營(yíng)收的20%以上。然而從線上運(yùn)行以及用戶(hù)反饋情況來(lái)看,鳳巢在廣告質(zhì)量度計(jì)算、展現(xiàn)以及廣告優(yōu)化等功能方面仍存在較多問(wèn)題,這些問(wèn)題不僅會(huì)給用戶(hù)帶來(lái)經(jīng)濟(jì)損失還會(huì)為鳳巢造成負(fù)面影響。為此,本論文針對(duì)鳳巢的重要業(yè)務(wù)點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了基于Hadoop的海量廣告日志分析系統(tǒng),旨在從海量的廣告日志中分析挖掘出異常數(shù)據(jù),并從不同維度對(duì)異常數(shù)據(jù)進(jìn)行統(tǒng)計(jì)以及可視化展示,以幫助鳳巢有效發(fā)現(xiàn)潛在的問(wèn)題,對(duì)異常產(chǎn)生的內(nèi)因進(jìn)行深入分析研

5、究,找出問(wèn)題來(lái)源以提出有效的解決方案。首先,本文基于鳳巢的業(yè)務(wù)功能確定了日志分析系統(tǒng)的實(shí)際需求;然后針對(duì)該需求,設(shè)計(jì)了本海量日志分析系統(tǒng)的功能結(jié)構(gòu),分為日志解析模塊、日志分析挖掘模塊以及Web展示模塊。日志解析模塊完成原始日志的數(shù)據(jù)預(yù)處理操作。日志分析挖掘模塊作為系統(tǒng)的核心部分,為不同的業(yè)務(wù)監(jiān)控項(xiàng)建立計(jì)算規(guī)則模型,從經(jīng)過(guò)預(yù)處理的海量日志數(shù)據(jù)中分析挖掘出各個(gè)業(yè)務(wù)點(diǎn)的異常數(shù)據(jù),然后對(duì)異常數(shù)據(jù)進(jìn)行多維度的過(guò)濾統(tǒng)計(jì),該模塊主要包括廣告質(zhì)量度、廣告審核以及廣告優(yōu)化建議三個(gè)業(yè)務(wù)專(zhuān)題。Web展現(xiàn)模塊通過(guò)動(dòng)態(tài)趨勢(shì)圖以及表格等形

6、式在網(wǎng)頁(yè)上對(duì)分析統(tǒng)計(jì)結(jié)果進(jìn)行可視化展現(xiàn)。在系統(tǒng)的實(shí)現(xiàn)技術(shù)上,日志解析和日志分析挖掘模塊充分利用了Hadoop在處理海量數(shù)據(jù)方面的優(yōu)勢(shì),將海量的原始日志及分析結(jié)果存儲(chǔ)于HDFS(HadoopDistributedFileSystem)中,基于Hadoop的MapReduce算法建立不同的MapReduce計(jì)算程序集來(lái)實(shí)現(xiàn)數(shù)據(jù)的處理。Web展現(xiàn)模塊使用LAMP(Linux+Apache+MySQL+PHP)技術(shù),采用較流行的Web應(yīng)用程序開(kāi)源框架CakePHP實(shí)現(xiàn)。最后,系統(tǒng)從功能和非功能上進(jìn)行了測(cè)試并得到驗(yàn)證。從

7、商用效果來(lái)看,通過(guò)本系統(tǒng)及時(shí)發(fā)現(xiàn)了潛在問(wèn)題,有效減少了鳳巢的線上錯(cuò)誤率,為決策發(fā)展提供了有效依據(jù)。關(guān)鍵詞:日志分析;海量數(shù)據(jù);Hadoop;MapReduce-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractBaiduFengChaoisanewlypromotedadvertisementauctionsystem,exploitingthedailybillionsofwebsearches,whichbringshugeincomeforbothbusinesscustomersandBaidu.Til

8、l2010,theincomefromFengChaooccupiesmorethan20%ofBaidu’stotalincome.However,accordingtotheonlinerunningandcustomerfeedbacks,FengChaostillfacesmanyproblemsinadvertisementqualitymeasuring,presencea

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。