基于會話分類的Web用戶訪問模式挖掘研究

基于會話分類的Web用戶訪問模式挖掘研究

ID:36819559

大小:344.20 KB

頁數(shù):7頁

時間:2019-05-16

基于會話分類的Web用戶訪問模式挖掘研究_第1頁
基于會話分類的Web用戶訪問模式挖掘研究_第2頁
基于會話分類的Web用戶訪問模式挖掘研究_第3頁
基于會話分類的Web用戶訪問模式挖掘研究_第4頁
基于會話分類的Web用戶訪問模式挖掘研究_第5頁
資源描述:

《基于會話分類的Web用戶訪問模式挖掘研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。

1、基于會話分類的Web用戶訪問模式挖掘研究吳海燕,朱靖君,高國柱,程志銳(清華大學計算機與信息管理中心,北京100084)(wuhy@cic.tsinghua.edu.cn)摘要:隨著Internet的迅速發(fā)展,Web站點的訪問用戶越來越多樣化,不同種類用戶的訪問模式有所不同。本文提出一種基于會話分類的Web用戶訪問模式挖掘方法。這套方法把用戶會話劃分為人類用戶會話、網(wǎng)絡爬蟲會話和資源下載類用戶會話三大類,在此基礎上分別對3類用戶的訪問模式進行挖掘。通過會話分類可以提高挖掘的效率與準確性。其中重點研究了人類用戶的訪問模式挖掘,提出了一種基于用戶訪問路徑樹的事務識別方法,并對PrefixSpan算

2、法進行了改進。這套方法在實驗中取得了很好的挖掘效果。關鍵詞:Web挖掘;會話分類;訪問模式;序列模式;PrefixSpan中圖分類號:TP311文獻標識碼:AResearchofWebUserAccessPatternMiningBasedonSessionClassificationWUHai-yan,ZHUJing-jun,GAOGuo-zhu,CHENGZhi-rui(ComputerandInformationManagementCenterofTsinghuaUniversity,TsinghuaUniversity,Beijing100084,China)Abstract:With

3、therapiddevelopmentofInternet,webusersareincreasinglydiversified.Theaccesspatternsofdifferentkindsofusersaredifferent.Thispaperpresentsamethodofminingwebuseraccesspatternbasedonsessionclassification.Thismethoddividesalltheusersessionsintothreecategories,whicharehumanusersessions,crawlersessionsandre

4、source-downloadusersessions.Thenminetheaccesspatternsofeachkindofusersrespectively.Sessionclassificationcanimprovetheefficiencyandaccuracyofmining.Thispaperfocusesonminingtheaccesspatternofhumanusers.Itpresentsamethodoftransactionidentificationbasedonusers’access-path-tree,andmakessomeimprovementson

5、PrefixSpanalgorithm.Thisminingmethodachievesgoodresultsintheexperiments.Keywords:webmining;sessionclassification;accesspattern;sequentialpattern;PrefixSpan人們也已經(jīng)提出了幾種經(jīng)典的挖掘算法,這包括R.Agrawal1引言等人提出的AprioriAll算法[3]和GSP算法[4]以及J.Han等Web日志挖掘是當前數(shù)據(jù)挖掘領域的一個重要研究課人提出的FreeSpan算法[5]和PrefixSpan算法[6]。這些挖掘題。Web日志記錄了用戶訪

6、問網(wǎng)站的許多重要信息,通過對方法在傳統(tǒng)的網(wǎng)絡環(huán)境中還是比較適用的。Web日志進行挖掘,可以得到用戶的訪問模式,這些訪問模然而近年來,Internet出現(xiàn)了不少新的變化,其中一個式有助于改善網(wǎng)站結構,為用戶提供更好的個性化服務。而重要的變化就是網(wǎng)站的訪問用戶更為多樣化。除了一般的通在網(wǎng)站的安全維護方面,從Web日志中可以檢測出惡意用過瀏覽器進行訪問的用戶(簡稱為“人類用戶”)以外,還戶的訪問行為,以便于及時加以防范。出現(xiàn)了一些“新的用戶”。2000年以后,搜索引擎逐漸興起,國內(nèi)外在Web日志挖掘方面的研究已經(jīng)比較成熟,形它們通過一種叫作網(wǎng)絡爬蟲的網(wǎng)頁抓取程序來收集各個網(wǎng)成了一套比較完整的挖掘流程

7、,包括數(shù)據(jù)清理、用戶識別、站上的網(wǎng)頁信息,因此每天都會有不少網(wǎng)絡爬蟲對網(wǎng)站進行會話識別、路徑補充、模式挖掘和模式分析等[1][12]。其中訪問,它們的訪問行為跟人類用戶有所不同[8]。除此之外,模式挖掘有多種方法,包括統(tǒng)計分析、關聯(lián)規(guī)則挖掘、序列從日常的Web日志分析中,我們還發(fā)現(xiàn)有不少用戶并沒有模式挖掘、分類與聚類等[7][11]。而在序列模式挖掘方面,訪問網(wǎng)站的任何網(wǎng)頁,而是單純地對網(wǎng)站的資源

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。