資源描述:
《web日志中用戶訪問(wèn)序列模式挖掘地研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、獨(dú)創(chuàng)性聲明㈨IlllIlIl
2、I刪lIlllⅢlII
3、
4、㈣111II刪‘iY1824672本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果,也不包含為獲得重廢整電盔堂或其他教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。學(xué)位論文作者簽名:僻簽字日期:v刁年釤u日學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解重麼郵電太堂有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán)
5、,允許論文被查閱和借閱。本人授權(quán)重麼整電太堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本授權(quán)書(shū))學(xué)位論文作者簽名:解導(dǎo)師簽名:勿張簽字日期:卅年廠月y日簽字日期:研年易月n重慶郵電大學(xué)碩士論文摘要隨著Web應(yīng)用的快速發(fā)展,Web數(shù)據(jù)挖掘成為數(shù)據(jù)挖掘的熱點(diǎn)之一,根據(jù)Web挖掘的目的和數(shù)據(jù)對(duì)象的不同,web數(shù)據(jù)挖掘可以分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web日志挖掘。Web日志挖掘是對(duì)用戶訪問(wèn)網(wǎng)站是留下的日志文件使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)隱含的規(guī)律性知識(shí),得到用戶的訪問(wèn)模式,對(duì)優(yōu)化站點(diǎn)結(jié)構(gòu)和
6、為用戶提供個(gè)性化服務(wù)具有重要的意義。在Web日志挖掘中數(shù)據(jù)預(yù)處理是整個(gè)挖掘過(guò)程的基礎(chǔ),直接影響日志挖掘的質(zhì)量和結(jié)果。本文在對(duì)預(yù)處理各個(gè)步驟研究分析的基礎(chǔ)上,提出了基于用戶訪問(wèn)樹(shù)的Web日志挖掘數(shù)據(jù)預(yù)處理方法,根據(jù)服務(wù)器用戶訪問(wèn)日志建立用戶訪問(wèn)樹(shù),并在用戶訪問(wèn)樹(shù)的基礎(chǔ)上進(jìn)行用戶和事務(wù)識(shí)別,從而解決了在動(dòng)態(tài)網(wǎng)站拓?fù)浣Y(jié)構(gòu)難以獲取的情況下進(jìn)行預(yù)處理的困難,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法識(shí)別事務(wù)的準(zhǔn)確性,為下一步序列模式挖掘打下堅(jiān)實(shí)的基礎(chǔ)。對(duì)于從Web日志中挖掘出用戶的訪問(wèn)序列模式,傳統(tǒng)的序列模式挖掘算法在挖掘時(shí)往往效率很低,它們采用的頻繁模式搜索策略經(jīng)常導(dǎo)致算法構(gòu)造大量的中間數(shù)據(jù)。本文對(duì)當(dāng)前
7、主要使用的PrefixSpan算法提出改進(jìn),在構(gòu)建投影數(shù)據(jù)庫(kù)時(shí)舍棄非頻繁項(xiàng)存儲(chǔ)并在投影序列數(shù)小于最小支持度時(shí)結(jié)束掃描投影數(shù)據(jù)庫(kù),同時(shí)通過(guò)檢查序列關(guān)于前綴的前綴,避免序列數(shù)據(jù)庫(kù)中重復(fù)投影數(shù)據(jù)庫(kù)的產(chǎn)生以及對(duì)投影數(shù)據(jù)庫(kù)進(jìn)行的重復(fù)掃描,提高了算法執(zhí)行效率,并通過(guò)實(shí)驗(yàn)對(duì)其時(shí)空性能與原算法進(jìn)行對(duì)比。本文最后在前面工作的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)w曲用戶訪問(wèn)日志挖掘原型系統(tǒng),并就原型的各模塊進(jìn)行了分析,通過(guò)對(duì)高校網(wǎng)站服務(wù)器的真實(shí)日志數(shù)據(jù)進(jìn)行挖掘,展示了完整的W曲日志挖掘過(guò)程,實(shí)驗(yàn)證明系統(tǒng)是可行的和有效的,同時(shí)將得到用戶訪問(wèn)序列模式提供給網(wǎng)站系統(tǒng)管理員參考以便更好地經(jīng)營(yíng)網(wǎng)站。關(guān)鍵詞:數(shù)據(jù)挖掘,w
8、eb日志挖掘,Web日志預(yù)處理,序列模式挖掘重慶郵電大學(xué)碩士論文Absn:actAbstractWebdataminiI塢,illcludingwe_bstnlctllremiIliI唱,webcont肌tmilling觚dweblogm塒ng,isbecomingaIlaCtiVeresearchtopicofdatamilliI瑪wimtherapiddevelopmentofwebapplyiIlg.Thewcb109m塒.mggetsmewebuseraCcesspatt?。簂sby趾alyzingmeaccessinfomIationrecordedbyt11ecl
9、i鈕t,meproxyaIldⅡ圮websen,er.Theresultofweblog1Ilillingcanbeusedt0refommestnlctureoftllewebsite,f-acilitateusers’browingandhelptopr0VidepersonalizedseⅣicetousers.Datapr印rocessingismeb嬲isof廿lewholeprocessofdatamiIlingi11weblogmiIliIlg,wtlichdirectlyillfluenCesmequal塒ofmeW曲log111illing觚ditsrcsu
10、lt.Amemodofdatapr印rocessinginweblogIIlilliI培baSedonmeuseraCcess仃eeisproposcdintllispaper.Theuseraccessn.eeiscreatedaCcordingtomeW曲109sinthepr印rocessinganditisllscdt0id翎t(yī)i矽theuseraIld仃ansaCtion.Somepr印rocessingcallbeworkedwellwithoutthesitetopology.Theexp