資源描述:
《基于用戶瀏覽行為聚類Web用戶》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、計(jì)算機(jī)科學(xué)2008Vol135№133)基于用戶瀏覽行為聚類Web用戶陳敏苗奪謙段其國(guó)(同濟(jì)大學(xué)電子與信息工程學(xué)院上海201804)(教育部嵌入式系統(tǒng)和服務(wù)計(jì)算重點(diǎn)實(shí)驗(yàn)室)摘要本文結(jié)合Web用戶瀏覽行為的特點(diǎn),提出了一種新的路徑相似度的計(jì)算方法,在計(jì)算相似度時(shí)不僅把用戶的瀏覽模式僅作為一種序列模式來(lái)考慮,還充分考慮了用戶在網(wǎng)上瀏覽的時(shí)間因素。然后,把粗糙度的概念引入Leader聚類算法中,提出粗糙Leader聚類算法。最后,使用標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行了試驗(yàn),證明基于此種相似度計(jì)算方法,應(yīng)用粗糙Leader算法聚類Web用戶的有效性。關(guān)鍵詞Web日志挖掘,聚類,相
2、似度,粗糙度ClusteringWebUsersBasedonUsers’BrowsingActionCHENMinMIAODuo2QianDUANQi2Quo(DepartmentofComputerScienceandEngineering,TongjiUniversity,Shanghai201804)(TheKeyLaboratoryofEmbeddedSystemandServiceComputing,MinistryofEducation)AbstractAnovelmethodtogetsimilitudeactionsofWebusers
3、isproposedinthispaperaftertakingintoaccountthecharacteristicsofusers’browsingactions.ThenewsimilarityisdefinedaccordingtonotonlythebrowsingpagesbutalsothetimewhenusersbrowseWebpages.Then,theconceptofroughapproximationsisintroducedinLeaderclusteralgorithmandroughLeaderclusteralgor
4、ithmissuggested.Finally,theperformanceoftheroughLeaderclusteralgo2rithmistestedandanalyzedbybenchmarkbasedonthenovelmethodtocomputingthesimilaritiesofthewebusers’accesspatterns.KeywordsWebusagemining,Clustering,Similarity,Roughapproximations中,提出粗糙Leader聚類算法。最后,使用標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行1引言了試驗(yàn),證明基
5、于此種相似度計(jì)算方法,應(yīng)用粗糙Leader算[1]作為Web智能(WebIntelligence)的一個(gè)子研究課題,法聚類Web用戶的有效性。Web日志挖掘是一個(gè)頗具前景的研究領(lǐng)域。通過(guò)挖掘Web2Web訪問(wèn)路徑間相似度的計(jì)算訪問(wèn)日志可以獲得Web訪問(wèn)用戶的信息需求,這對(duì)于更加合理的規(guī)劃網(wǎng)站結(jié)構(gòu),對(duì)用戶提供個(gè)性化服務(wù),為電子商務(wù)網(wǎng)站2.1Web訪問(wèn)路徑經(jīng)營(yíng)者發(fā)現(xiàn)潛在的客戶等,都提供了非常有價(jià)值的信息。目原始的Web日志數(shù)據(jù)中都不同程度地存在著缺失、謬誤前針對(duì)Web日志的分析方法很多,聚類作為一種重要的數(shù)據(jù)等噪音數(shù)據(jù),所以必須進(jìn)行預(yù)處理。經(jīng)過(guò)過(guò)濾、用戶識(shí)別
6、、會(huì)挖掘技術(shù),已經(jīng)在Web日志挖掘中得到了廣泛的應(yīng)用。話識(shí)別等步驟,就得到了包含用戶訪問(wèn)路徑的日志文件,這里[6]然而,相比于在傳統(tǒng)數(shù)據(jù)挖掘中,聚類技術(shù)在Web日志我們使用DePaul大學(xué)提供的標(biāo)準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)主要來(lái)自挖掘中的應(yīng)用仍有不少值得探討的問(wèn)題。在Web日志挖掘DePaulCTIWeb服務(wù)器(http://www.cs.depaul.edu),數(shù)據(jù)中,計(jì)算用戶訪問(wèn)路徑的相似度是聚類過(guò)程中十分重要的步的采集是隨機(jī)抽取在2002年4月的兩個(gè)星期中訪問(wèn)這個(gè)網(wǎng)驟之一。到目前為止,用戶訪問(wèn)路徑間相似度的計(jì)算大部分站的用戶。每個(gè)會(huì)話(訪問(wèn)路徑)以如下所示的一
7、行作為會(huì)話[2]都是基于集合之間的交集運(yùn)算,如夾角余弦方法或Jaccard的開始(見(jiàn)表1):SESSION#n(USER_ID=k),其中n表示[3]相關(guān)系數(shù)計(jì)算法,基于非歐式距離的序列排列方法會(huì)話序號(hào),k表示用戶的ID。在一個(gè)給定的會(huì)話中,每一行對(duì)(SAM),[4]多維序列排列方法等。正如我們所知,用戶訪問(wèn)應(yīng)用戶發(fā)出的一個(gè)頁(yè)面請(qǐng)求,包含三個(gè)域:時(shí)間戳,請(qǐng)求頁(yè)面路徑是指用戶在一段時(shí)間內(nèi)依次訪問(wèn)的頁(yè)面的集合,然而這和引用頁(yè)面。時(shí)間戳域表示用戶訪問(wèn)頁(yè)面的時(shí)間相距2002些相似度計(jì)算方法或者沒(méi)有把訪問(wèn)路徑作為一種序列來(lái)考年1月1日的秒數(shù)。請(qǐng)求頁(yè)面域的地址是以相
8、對(duì)于DePaul慮,或者沒(méi)有考慮用戶訪問(wèn)時(shí)的時(shí)間因素。CTIWeb服務(wù)器的相對(duì)地