基于會話分類的Web用戶訪問模式挖掘研究

ID：36819559

大小：344.20 KB

頁數(shù)：7頁

時間：2019-05-16

資源描述：

《基于會話分類的Web用戶訪問模式挖掘研究》由會員上傳分享，免費在線閱讀，更多相關內(nèi)容在學術論文-天天文庫。

1、基于會話分類的Web用戶訪問模式挖掘研究吳海燕，朱靖君，高國柱，程志銳（清華大學計算機與信息管理中心，北京100084）（wuhy@cic.tsinghua.edu.cn）摘要：隨著Internet的迅速發(fā)展，Web站點的訪問用戶越來越多樣化，不同種類用戶的訪問模式有所不同。本文提出一種基于會話分類的Web用戶訪問模式挖掘方法。這套方法把用戶會話劃分為人類用戶會話、網(wǎng)絡爬蟲會話和資源下載類用戶會話三大類，在此基礎上分別對3類用戶的訪問模式進行挖掘。通過會話分類可以提高挖掘的效率與準確性。其中重點研究了人類用戶的訪問模式挖掘，提出了一種基于用戶訪問路徑樹的事務識別方法，并對PrefixSpan算

2、法進行了改進。這套方法在實驗中取得了很好的挖掘效果。關鍵詞：Web挖掘；會話分類；訪問模式；序列模式；PrefixSpan中圖分類號：TP311文獻標識碼：AResearchofWebUserAccessPatternMiningBasedonSessionClassificationWUHai-yan,ZHUJing-jun,GAOGuo-zhu,CHENGZhi-rui（ComputerandInformationManagementCenterofTsinghuaUniversity，TsinghuaUniversity，Beijing100084，China）Abstract:With

3、therapiddevelopmentofInternet,webusersareincreasinglydiversified.Theaccesspatternsofdifferentkindsofusersaredifferent.Thispaperpresentsamethodofminingwebuseraccesspatternbasedonsessionclassification.Thismethoddividesalltheusersessionsintothreecategories,whicharehumanusersessions,crawlersessionsandre

4、source-downloadusersessions.Thenminetheaccesspatternsofeachkindofusersrespectively.Sessionclassificationcanimprovetheefficiencyandaccuracyofmining.Thispaperfocusesonminingtheaccesspatternofhumanusers.Itpresentsamethodoftransactionidentificationbasedonusers’access-path-tree,andmakessomeimprovementson

5、PrefixSpanalgorithm.Thisminingmethodachievesgoodresultsintheexperiments.Keywords:webmining;sessionclassification;accesspattern;sequentialpattern;PrefixSpan人們也已經(jīng)提出了幾種經(jīng)典的挖掘算法，這包括R.Agrawal1引言等人提出的AprioriAll算法[3]和GSP算法[4]以及J.Han等Web日志挖掘是當前數(shù)據(jù)挖掘領域的一個重要研究課人提出的FreeSpan算法[5]和PrefixSpan算法[6]。這些挖掘題。Web日志記錄了用戶訪

6、問網(wǎng)站的許多重要信息，通過對方法在傳統(tǒng)的網(wǎng)絡環(huán)境中還是比較適用的。Web日志進行挖掘，可以得到用戶的訪問模式，這些訪問模然而近年來，Internet出現(xiàn)了不少新的變化，其中一個式有助于改善網(wǎng)站結構，為用戶提供更好的個性化服務。而重要的變化就是網(wǎng)站的訪問用戶更為多樣化。除了一般的通在網(wǎng)站的安全維護方面，從Web日志中可以檢測出惡意用過瀏覽器進行訪問的用戶（簡稱為“人類用戶”）以外，還戶的訪問行為，以便于及時加以防范。出現(xiàn)了一些“新的用戶”。2000年以后，搜索引擎逐漸興起，國內(nèi)外在Web日志挖掘方面的研究已經(jīng)比較成熟，形它們通過一種叫作網(wǎng)絡爬蟲的網(wǎng)頁抓取程序來收集各個網(wǎng)成了一套比較完整的挖掘流程

7、，包括數(shù)據(jù)清理、用戶識別、站上的網(wǎng)頁信息，因此每天都會有不少網(wǎng)絡爬蟲對網(wǎng)站進行會話識別、路徑補充、模式挖掘和模式分析等[1][12]。其中訪問，它們的訪問行為跟人類用戶有所不同[8]。除此之外，模式挖掘有多種方法，包括統(tǒng)計分析、關聯(lián)規(guī)則挖掘、序列從日常的Web日志分析中，我們還發(fā)現(xiàn)有不少用戶并沒有模式挖掘、分類與聚類等[7][11]。而在序列模式挖掘方面，訪問網(wǎng)站的任何網(wǎng)頁，而是單純地對網(wǎng)站的資源

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于會話分類的Web用戶訪問模式挖掘研究

基于會話分類的Web用戶訪問模式挖掘研究

相關文章

相關標簽