基于用戶瀏覽行為聚類Web用戶

基于用戶瀏覽行為聚類Web用戶

ID:36798762

大小:272.84 KB

頁數(shù):3頁

時(shí)間:2019-05-15

基于用戶瀏覽行為聚類Web用戶_第1頁
基于用戶瀏覽行為聚類Web用戶_第2頁
基于用戶瀏覽行為聚類Web用戶_第3頁
資源描述:

《基于用戶瀏覽行為聚類Web用戶》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、計(jì)算機(jī)科學(xué)2008Vol135№133)基于用戶瀏覽行為聚類Web用戶陳敏苗奪謙段其國(guó)(同濟(jì)大學(xué)電子與信息工程學(xué)院上海201804)(教育部嵌入式系統(tǒng)和服務(wù)計(jì)算重點(diǎn)實(shí)驗(yàn)室)摘要本文結(jié)合Web用戶瀏覽行為的特點(diǎn),提出了一種新的路徑相似度的計(jì)算方法,在計(jì)算相似度時(shí)不僅把用戶的瀏覽模式僅作為一種序列模式來考慮,還充分考慮了用戶在網(wǎng)上瀏覽的時(shí)間因素。然后,把粗糙度的概念引入Leader聚類算法中,提出粗糙Leader聚類算法。最后,使用標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行了試驗(yàn),證明基于此種相似度計(jì)算方法,應(yīng)用粗糙Leader算法聚類Web用戶的有效性。關(guān)鍵詞Web日志挖掘,聚類,相

2、似度,粗糙度ClusteringWebUsersBasedonUsers’BrowsingActionCHENMinMIAODuo2QianDUANQi2Quo(DepartmentofComputerScienceandEngineering,TongjiUniversity,Shanghai201804)(TheKeyLaboratoryofEmbeddedSystemandServiceComputing,MinistryofEducation)AbstractAnovelmethodtogetsimilitudeactionsofWebusers

3、isproposedinthispaperaftertakingintoaccountthecharacteristicsofusers’browsingactions.ThenewsimilarityisdefinedaccordingtonotonlythebrowsingpagesbutalsothetimewhenusersbrowseWebpages.Then,theconceptofroughapproximationsisintroducedinLeaderclusteralgorithmandroughLeaderclusteralgor

4、ithmissuggested.Finally,theperformanceoftheroughLeaderclusteralgo2rithmistestedandanalyzedbybenchmarkbasedonthenovelmethodtocomputingthesimilaritiesofthewebusers’accesspatterns.KeywordsWebusagemining,Clustering,Similarity,Roughapproximations中,提出粗糙Leader聚類算法。最后,使用標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行1引言了試驗(yàn),證明基

5、于此種相似度計(jì)算方法,應(yīng)用粗糙Leader算[1]作為Web智能(WebIntelligence)的一個(gè)子研究課題,法聚類Web用戶的有效性。Web日志挖掘是一個(gè)頗具前景的研究領(lǐng)域。通過挖掘Web2Web訪問路徑間相似度的計(jì)算訪問日志可以獲得Web訪問用戶的信息需求,這對(duì)于更加合理的規(guī)劃網(wǎng)站結(jié)構(gòu),對(duì)用戶提供個(gè)性化服務(wù),為電子商務(wù)網(wǎng)站2.1Web訪問路徑經(jīng)營(yíng)者發(fā)現(xiàn)潛在的客戶等,都提供了非常有價(jià)值的信息。目原始的Web日志數(shù)據(jù)中都不同程度地存在著缺失、謬誤前針對(duì)Web日志的分析方法很多,聚類作為一種重要的數(shù)據(jù)等噪音數(shù)據(jù),所以必須進(jìn)行預(yù)處理。經(jīng)過過濾、用戶識(shí)別

6、、會(huì)挖掘技術(shù),已經(jīng)在Web日志挖掘中得到了廣泛的應(yīng)用。話識(shí)別等步驟,就得到了包含用戶訪問路徑的日志文件,這里[6]然而,相比于在傳統(tǒng)數(shù)據(jù)挖掘中,聚類技術(shù)在Web日志我們使用DePaul大學(xué)提供的標(biāo)準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)主要來自挖掘中的應(yīng)用仍有不少值得探討的問題。在Web日志挖掘DePaulCTIWeb服務(wù)器(http://www.cs.depaul.edu),數(shù)據(jù)中,計(jì)算用戶訪問路徑的相似度是聚類過程中十分重要的步的采集是隨機(jī)抽取在2002年4月的兩個(gè)星期中訪問這個(gè)網(wǎng)驟之一。到目前為止,用戶訪問路徑間相似度的計(jì)算大部分站的用戶。每個(gè)會(huì)話(訪問路徑)以如下所示的一

7、行作為會(huì)話[2]都是基于集合之間的交集運(yùn)算,如夾角余弦方法或Jaccard的開始(見表1):SESSION#n(USER_ID=k),其中n表示[3]相關(guān)系數(shù)計(jì)算法,基于非歐式距離的序列排列方法會(huì)話序號(hào),k表示用戶的ID。在一個(gè)給定的會(huì)話中,每一行對(duì)(SAM),[4]多維序列排列方法等。正如我們所知,用戶訪問應(yīng)用戶發(fā)出的一個(gè)頁面請(qǐng)求,包含三個(gè)域:時(shí)間戳,請(qǐng)求頁面路徑是指用戶在一段時(shí)間內(nèi)依次訪問的頁面的集合,然而這和引用頁面。時(shí)間戳域表示用戶訪問頁面的時(shí)間相距2002些相似度計(jì)算方法或者沒有把訪問路徑作為一種序列來考年1月1日的秒數(shù)。請(qǐng)求頁面域的地址是以相

8、對(duì)于DePaul慮,或者沒有考慮用戶訪問時(shí)的時(shí)間因素。CTIWeb服務(wù)器的相對(duì)地

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。