基于web用戶興趣的聚類模型挖掘與分析

基于web用戶興趣的聚類模型挖掘與分析

ID:12619095

大小:150.50 KB

頁數(shù):29頁

時間:2018-07-18

基于web用戶興趣的聚類模型挖掘與分析_第1頁
基于web用戶興趣的聚類模型挖掘與分析_第2頁
基于web用戶興趣的聚類模型挖掘與分析_第3頁
基于web用戶興趣的聚類模型挖掘與分析_第4頁
基于web用戶興趣的聚類模型挖掘與分析_第5頁
資源描述:

《基于web用戶興趣的聚類模型挖掘與分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、基于Web用戶興趣的聚類模型挖掘與分析//.paper.edu-1-基于Web用戶興趣的聚類模型挖掘與分析1陳健榮1,呂雪蕊21中山大學信息科學與技術(shù)學院,廣東廣州(510275)2廣東省潮州市龍湖醫(yī)院,廣東潮州(521000)摘要:用戶興趣的評估因素有多方面,無論單獨從哪個方面都無法得到完整的模型。本文綜合考慮了三個核心因素,首先對用戶瀏覽過的頁面進行內(nèi)容分析,并根據(jù)主題信息對頁面進行聚類;在聚類的過程中除了考慮頁面內(nèi)容的相近程度外還輔以頁面路徑進行歸類判斷。在最后得到頁面的興趣簇時將用戶的瀏覽行為對其興趣的作用列入其中,從而得到綜合的評估模型。實踐表明此種方式能更準

2、確的反映用戶的真實興趣。關(guān)鍵詞:聚類模型,用戶興趣,Web數(shù)據(jù)挖掘,知識發(fā)現(xiàn)中圖分類號:TP311文獻標識碼:A1引言隨著因特網(wǎng)越發(fā)深入人們的生活,準確的挖掘用戶興趣將變得非常有意義,它可以使得人們在浩瀚的網(wǎng)絡(luò)中迅速的找到志同道合者進行交流,從而促進知識的傳遞。對用戶興趣特征的刻畫有加權(quán)矢量、類型層次結(jié)構(gòu)、加權(quán)語義網(wǎng)、書簽和目錄結(jié)構(gòu)等模型[1],而根據(jù)用戶是否參加可分為顯示與隱式兩種。由于顯示挖掘需要用戶主動參與,這很大程度上降低了可用性,并同時帶來系統(tǒng)噪音,為了保證挖掘結(jié)果的準確性以及提高用戶接受度,一般采用隱式數(shù)據(jù)挖掘。目前對用戶興趣的挖掘方式有多種,其中有基于瀏覽

3、內(nèi)容和行為相結(jié)合的方式,如文獻[2],也有單純從用戶行為的歷史信息尋找隱藏規(guī)律的。用戶會話作為用戶行為信息的基本單位,對其聚類是從行為歷史中發(fā)現(xiàn)用戶興趣的基礎(chǔ)工作,因而它自然而然成為重要的分析對象。而對用戶會話分析主要采用的是相似性測量方法,基于相同瀏覽權(quán)值的相似性測量方法主要包括文獻[3-6]所提出的4種,即Usage-based,F(xiàn)requency-based,Viewing-Time-based以及Visiting-Order-based。其中VTB用的最廣泛,同時這些方法均假設(shè)頁面是不相關(guān)的而只比較不同會話在相同頁面的瀏覽權(quán)值,不考慮頁面之間的相似性。事實上,文

4、獻[7]中提到,即使不考慮頁面的內(nèi)容,單純考慮頁面的路徑也可以發(fā)現(xiàn)不同的頁面之間存在相似性。本文并不單純從一個方面來分析用戶的興趣,而是綜合多種方式、從多角度來建立用戶的興趣模型。首先將用戶所訪問的頁面進行內(nèi)容挖掘從而得到用矢量方法表示的頁面興趣,在此基礎(chǔ)上結(jié)合頁面URL相似性對頁面距離的貢獻對頁面進行聚類;接著,根據(jù)聚類結(jié)果考慮用戶作用在頁面上的行為提取出突出特征從而形成用戶興趣。2用戶興趣挖掘方式2.1興趣界定在分析用戶興趣之前,我們首先對用戶興趣進行界定,即用戶由什么組成、影響因素有哪些。一般地,用戶對Web文檔的訪問是有目的的行為,這種行為的動機可以分為穩(wěn)定興趣

5、和偶然興趣。穩(wěn)定興趣是指一個人具有持久的興趣傾向,偶然興趣是指一個人由于臨時需要或其他原因?qū)δ呈挛锂a(chǎn)生的偶然興趣,每個人的偶然興趣可以認為是隨機變化的。但在日志陳健榮(1983-),男,碩士研究生,主要研究方向為數(shù)據(jù)庫與知識庫,工作流平臺。//.paper.edu-2-中用戶的興趣具有集中性,這說明用戶由穩(wěn)定興趣驅(qū)動訪問Web的頻率遠遠高于偶然興趣的驅(qū)動,因此一定時間段的Web訪問日志中一定蘊含了用戶的穩(wěn)定興趣。可以這么認為,用戶的興趣由其瀏覽過的大量頁面的興趣綜合而成。其中“頁面興趣”定義如下:設(shè)有頁面共有N個主題,所有主題都用數(shù)字權(quán)值來表示其突出程度,越突出的主題其

6、權(quán)值越大,其中第i個主題的權(quán)值用iC來表示。設(shè)所有主題的權(quán)值之和為m,權(quán)值Ci按從大到小排列,即12iCCC≥≥L,若0()/80%kiiCm=≥∑,那么主題1~k為突出主題,我們稱這前k個主題為該頁面的興趣。我們可根據(jù)同樣的原理來表示用戶的興趣,文獻[8]便是采用此種方式。2.2興趣挖掘流程Web挖掘過程一般包括相關(guān)網(wǎng)頁采集、文本預處理、文本模型表示、信息或文本特征性抽取、文本分類(聚類)或結(jié)果集的數(shù)據(jù)挖掘等步驟以得到結(jié)果從而極大程度的方便用戶有效地瀏覽和獲取信息[9]。本文提出的用戶興趣挖掘中最核心的步驟是對頁面興趣的挖掘,其大致過程如下:首先捕獲用戶訪問的URL并

7、對URL進行預處理,主要是去除視頻、音頻以及無效鏈接,然后根據(jù)“干凈”的URL提取對應(yīng)的頁面文本,接著對文本中的關(guān)鍵主題進行分析得到頁面的興趣。其流程圖如圖1所示:圖1頁面興趣挖掘流程用戶的興趣在頁面興趣挖掘的基礎(chǔ)上綜合其他信息進行分析,其中主要考慮了頁面路徑的相似性、用戶在頁面上的瀏覽時間以及點擊次數(shù),我們用圖2的流程來表示:圖2用戶興趣挖掘流程3用戶興趣模型分析3.1Web內(nèi)容挖掘(一)頁面主題表示研究頁面的主題表示方式目的在于能用形式化的方式來表示頁面興趣,進而計算頁面間的距離并最終為挖掘用戶興趣服務(wù)。但是Web頁面不像關(guān)系數(shù)據(jù)庫那

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。