資源描述:
《基于hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、碩士學(xué)位論文(工程碩士)基于Hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)THEDESIGNANDIMPLEMENTATIONOFMASSIVEADVERTISINGLOGANALYSISSYSTEMBASEDONHADOOP章偉星2013年6月國(guó)內(nèi)圖書(shū)分類(lèi)號(hào):TP311學(xué)校代碼:10213國(guó)際圖書(shū)分類(lèi)號(hào):621.3密級(jí):公開(kāi)工程碩士學(xué)位論文基于Hadoop的海量廣告日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)碩士研究生:章偉星導(dǎo)師:蘇統(tǒng)華高級(jí)講師副導(dǎo)師:戚佳音高級(jí)工程師申請(qǐng)學(xué)位:工程碩士學(xué)科、專(zhuān)業(yè):軟件工程所在單位:軟件學(xué)院答辯
2、日期:2013年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFMASSIVEADVERTISINGLOGANALYSISSYSTEMBASEDONHADOOPCandidate:ZhangWeixingSupervisor:SeniorLecturerSuTonghuaAssociateSupervisor:Seni
3、orEngineerQiJiayinAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2013Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要百度鳳巢是百度推出的全新廣告拍賣(mài)系統(tǒng),其以每天數(shù)以?xún)|計(jì)的網(wǎng)頁(yè)搜索量為強(qiáng)大后盾,為推
4、廣商戶(hù)帶來(lái)巨大經(jīng)濟(jì)效益的同時(shí)也為百度帶來(lái)了巨大的經(jīng)濟(jì)收入,截至2010年第三季度末,來(lái)自鳳巢的營(yíng)收已占百度總營(yíng)收的20%以上。然而從線上運(yùn)行以及用戶(hù)反饋情況來(lái)看,鳳巢在廣告質(zhì)量度計(jì)算、展現(xiàn)以及廣告優(yōu)化等功能方面仍存在較多問(wèn)題,這些問(wèn)題不僅會(huì)給用戶(hù)帶來(lái)經(jīng)濟(jì)損失還會(huì)為鳳巢造成負(fù)面影響。為此,本論文針對(duì)鳳巢的重要業(yè)務(wù)點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了基于Hadoop的海量廣告日志分析系統(tǒng),旨在從海量的廣告日志中分析挖掘出異常數(shù)據(jù),并從不同維度對(duì)異常數(shù)據(jù)進(jìn)行統(tǒng)計(jì)以及可視化展示,以幫助鳳巢有效發(fā)現(xiàn)潛在的問(wèn)題,對(duì)異常產(chǎn)生的內(nèi)因進(jìn)行深入分析研
5、究,找出問(wèn)題來(lái)源以提出有效的解決方案。首先,本文基于鳳巢的業(yè)務(wù)功能確定了日志分析系統(tǒng)的實(shí)際需求;然后針對(duì)該需求,設(shè)計(jì)了本海量日志分析系統(tǒng)的功能結(jié)構(gòu),分為日志解析模塊、日志分析挖掘模塊以及Web展示模塊。日志解析模塊完成原始日志的數(shù)據(jù)預(yù)處理操作。日志分析挖掘模塊作為系統(tǒng)的核心部分,為不同的業(yè)務(wù)監(jiān)控項(xiàng)建立計(jì)算規(guī)則模型,從經(jīng)過(guò)預(yù)處理的海量日志數(shù)據(jù)中分析挖掘出各個(gè)業(yè)務(wù)點(diǎn)的異常數(shù)據(jù),然后對(duì)異常數(shù)據(jù)進(jìn)行多維度的過(guò)濾統(tǒng)計(jì),該模塊主要包括廣告質(zhì)量度、廣告審核以及廣告優(yōu)化建議三個(gè)業(yè)務(wù)專(zhuān)題。Web展現(xiàn)模塊通過(guò)動(dòng)態(tài)趨勢(shì)圖以及表格等形
6、式在網(wǎng)頁(yè)上對(duì)分析統(tǒng)計(jì)結(jié)果進(jìn)行可視化展現(xiàn)。在系統(tǒng)的實(shí)現(xiàn)技術(shù)上,日志解析和日志分析挖掘模塊充分利用了Hadoop在處理海量數(shù)據(jù)方面的優(yōu)勢(shì),將海量的原始日志及分析結(jié)果存儲(chǔ)于HDFS(HadoopDistributedFileSystem)中,基于Hadoop的MapReduce算法建立不同的MapReduce計(jì)算程序集來(lái)實(shí)現(xiàn)數(shù)據(jù)的處理。Web展現(xiàn)模塊使用LAMP(Linux+Apache+MySQL+PHP)技術(shù),采用較流行的Web應(yīng)用程序開(kāi)源框架CakePHP實(shí)現(xiàn)。最后,系統(tǒng)從功能和非功能上進(jìn)行了測(cè)試并得到驗(yàn)證。從
7、商用效果來(lái)看,通過(guò)本系統(tǒng)及時(shí)發(fā)現(xiàn)了潛在問(wèn)題,有效減少了鳳巢的線上錯(cuò)誤率,為決策發(fā)展提供了有效依據(jù)。關(guān)鍵詞:日志分析;海量數(shù)據(jù);Hadoop;MapReduce-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractBaiduFengChaoisanewlypromotedadvertisementauctionsystem,exploitingthedailybillionsofwebsearches,whichbringshugeincomeforbothbusinesscustomersandBaidu.Til
8、l2010,theincomefromFengChaooccupiesmorethan20%ofBaidu’stotalincome.However,accordingtotheonlinerunningandcustomerfeedbacks,FengChaostillfacesmanyproblemsinadvertisementqualitymeasuring,presencea