基于序列模式的web日志挖掘

基于序列模式的web日志挖掘

ID:33147586

大?。?.20 MB

頁數(shù):47頁

時間:2019-02-21

基于序列模式的web日志挖掘_第1頁
基于序列模式的web日志挖掘_第2頁
基于序列模式的web日志挖掘_第3頁
基于序列模式的web日志挖掘_第4頁
基于序列模式的web日志挖掘_第5頁
資源描述:

《基于序列模式的web日志挖掘》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、長春工業(yè)大學(xué)碩士學(xué)位論文基于序列模式的Web日志挖掘姓名:藏紅巖申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:許建潮20070301長備T業(yè)大學(xué)碩I+學(xué)位論文摘要隨著Internet的迅速發(fā)展,人們面對太多的信息無法選擇和消化,淹沒在繁雜的信息中,這種現(xiàn)象稱為信息過載。Internet上信息資源分布的廣泛性又給用戶尋找感興趣的信息增加了困難,用戶不知道如何更有效地發(fā)現(xiàn)自己所需的信息資源,即信息迷失。當(dāng)前我們主要采用搜索引擎來檢索Web上的信息,但是大多數(shù)搜索引擎缺少主動性,沒有考慮用戶的興趣偏好和用戶的不同,無法有效地解決信息過載和信息迷失的問題。直接或

2、間接解決這個問題的途徑之一就是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web服務(wù)器日志的挖掘,從用戶在Web上瀏覽行為數(shù)據(jù)中獲取用戶的瀏覽模式,根據(jù)用戶的行為模式,改進站點的設(shè)計和服務(wù),開展個性化服務(wù)和構(gòu)建智能Web站點。針對上面提出的問題以及解決辦法,本論文系統(tǒng)地闡述了從數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘到Web日志數(shù)據(jù)挖掘整個過程。本論文使用了基于序列模式的挖掘算法對Web日志進行了挖掘,并對算法進行了實驗,給出了實驗結(jié)果,證明了本方法的有效性?!菊撐氖紫冉榻B了當(dāng)前Internet的發(fā)展以及數(shù)據(jù)挖掘在Web中的應(yīng)用,并著重介紹了數(shù)據(jù)挖掘的相關(guān)概念以及技術(shù),然后介紹了數(shù)據(jù)挖掘領(lǐng)域中

3、Web日志挖掘相關(guān)方法,其中重點介紹了基于序列模式的Web日志挖掘技術(shù)。接下來論文詳細闡述了Web日志挖掘的整個過程,從Web日志數(shù)據(jù)的預(yù)處理工作(數(shù)據(jù)凈化、用戶識別、會話識別、路徑補充、事務(wù)識別)到使用序列模式對經(jīng)過預(yù)處理的數(shù)據(jù)進行挖掘的方法。在Web日志挖掘算法中,使用了一種基于廣度優(yōu)先的序列模式挖掘算法,并對算法進行了詳細的描述。我們使用java語言對算法進行了實現(xiàn)并對Web日志進行了挖掘,并且得出了挖掘結(jié)果。最后我們對挖掘結(jié)果進行了仔細的分析以及把該算法的挖掘結(jié)果與其他算法的挖掘結(jié)果進行了對比,實驗證明我們的算法能有效挖掘出Web日志中的序列模式。

4、最后,對論文作出了總結(jié)并對將來的工作做了展望。關(guān)鍵詞:數(shù)據(jù)挖掘,Web日志挖掘,序列模式IIk備工業(yè)人學(xué)碩I學(xué)位論文AbstractWithrapiddevelopmentofIntemet,peoplecannotmakethefightchoicebecansetherearetoomanyinformationforpeopletochoose.ThisphenomenonjscalledinformationOVerloading.TheuniversalityoftheInternetinformationreCouI'Se镕distribute

5、alsomakeadifficultforUsertosearchtheinformationtheyinterested,theuserdonnotknowhowtofindtherightinformationtheywant,thisiscalledinformationlost.Currentlysearcha喀ineisthemaintoolwellseontheweb.butmostofsearchengineslackofgo-aheadism,theydonnotconsiderthedi岱=11cesoftheUsel'sandthetl

6、set售’favor,SOtheycannotsolvetheproblemsofinformationOVerloadingandinformationlost.OneofthewaystosolvetheproblemistoapplythedamminingtothewebserverlogminingdirectlyOrindirectly,andgetthebrowsepatternfromtheusefs’browsebehaviorontheweb.Accordingtothepatternweget,toimprovethesite’sde

7、signandservice,buildtheintelligencewebsite.Astheproblemswereferredbefore,thisdissertationexpatiatethepro伊essfromdatamining,webdataminingtoweblogdataminingsystematically.ThisdissertationusesequentialpatternmjniDgarithmetictominingweblogandwedid∞experimentonthisarithmeticandthengive

8、theexperimentresulttoprovethisari

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。