基于有向帶權(quán)圖的頁(yè)面聚類算法研究new

基于有向帶權(quán)圖的頁(yè)面聚類算法研究new

ID:33480469

大?。?33.05 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2019-02-26

基于有向帶權(quán)圖的頁(yè)面聚類算法研究new_第1頁(yè)
基于有向帶權(quán)圖的頁(yè)面聚類算法研究new_第2頁(yè)
基于有向帶權(quán)圖的頁(yè)面聚類算法研究new_第3頁(yè)
基于有向帶權(quán)圖的頁(yè)面聚類算法研究new_第4頁(yè)
基于有向帶權(quán)圖的頁(yè)面聚類算法研究new_第5頁(yè)
資源描述:

《基于有向帶權(quán)圖的頁(yè)面聚類算法研究new》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、計(jì)算機(jī)技術(shù)與發(fā)展Vo1第期.19No.92009年9月COMPUFERTECHNOLOGYANDDEVELOPMENTSep.2009基于有向帶權(quán)圖的頁(yè)面聚類算法研究方杰,張結(jié)魁,周軍(合肥工業(yè)大學(xué),安徽合肥230009)摘要:聚類算法是數(shù)據(jù)挖掘中的一個(gè)重要的分析工具。Web使用挖掘中的聚類分析一般分為用戶聚類和頁(yè)面聚類其中頁(yè)面聚類是指導(dǎo)網(wǎng)站結(jié)構(gòu)離線優(yōu)化的重要方法。利用有向帶權(quán)圖表示用戶的訪問會(huì)話記錄,對(duì)建立的有向帶權(quán)圖模型運(yùn)用聚類算法實(shí)現(xiàn)頁(yè)面聚類。選取真實(shí)數(shù)據(jù)對(duì)典型的聚類算法K—n瑚J1s算法、DBSCAN算法和COBWEB算法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在選取的數(shù)據(jù)集范圍內(nèi)

2、,COBWEB算法準(zhǔn)確率要高于K—means算法和DKSCAN算法,時(shí)間性能與用戶訪問頻率矩陣大小有密切關(guān)系。關(guān)鍵詞:有向帶權(quán)圖;聚類算法;頁(yè)面聚類;K—n算法;Ⅸ:AN算法;0()BwEB算法中圖分類號(hào);TP301.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1673—629X(2009)09—0049—05StudyonPageClusteringAlgorithmsBasedonWeightedDirectedGraphFANGJie,ZHANGJie—kui,ZHOUJun(HefeiUniversityofTechnology,Hefei230009,China)Abstract:

3、Clusteringalgorithmis8/1importantanalyticaltoolindatamining.Clusteringanalysisisgenerallyfallenintou8汀clusteringandpageclusteringinWebussgemining.Pageclusteringis趴importantmethodsforguidingforthestructureofthesiteoff—lineoptimiza·tion.Ttlispaperusewe~hteddirectedgraphtOdescribeuservisitand

4、conversationrecords.a(chǎn)nduseclusteringalgorithmstoreal~ethepageclusteringbytheweighteddirectedgraphmodeestablished.SelecttherealdataC&1TiesontheexperimenttOthetypieadclusteringal·gorithmsK—meansalgorithm。DBSCANalgorithmandO0]’Balgorithm.1_heexperimentsresultsindicatethatintheselecteddatasets

5、,theaccuracyrateofODBWEBalgorithmishigherthanthatofK—H坨ansalgorithmandDI~_ANalgorithm。andthetimecapabilityiscloselyrelatedtOthesizeofuse1-visitfrequencymatrix.Keywords:weighteddirectedgraph;clusteringalgorithms;pageclustering;K—meigD~algorithm;D】3SCANalgorithm;a)EI砌aIg0·rithmO引言面的訪問情況也是非常重

6、要的信息。因此可以利用有互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的分布式全球信息服務(wù)向帶權(quán)圖來表示用戶會(huì)話,運(yùn)用轉(zhuǎn)移概率矩陣描述超中心。如何為用戶快速、高效、準(zhǔn)確地提供他們所需要鏈接的重要性,并且在建模的過程中結(jié)合站點(diǎn)的拓?fù)涞?,并具有高度相關(guān)性的一簇Web頁(yè)面,已經(jīng)成為業(yè)結(jié)構(gòu)。這樣不僅可以較好刻畫用戶的訪問行為,還描界研究的主要內(nèi)容。解決這個(gè)問題的一個(gè)有效途徑就述了網(wǎng)站的拓?fù)浣Y(jié)構(gòu)以及站點(diǎn)的結(jié)構(gòu)特征數(shù)據(jù)?;谑菍?duì)頁(yè)面進(jìn)行合理的聚類分析,從而更高效地進(jìn)行有向帶權(quán)圖的用戶訪問模型的有效性在文獻(xiàn)[1]已經(jīng)web信息的分類、存儲(chǔ)、檢索和集成。然而,若要真正得到證明,放對(duì)于有向帶權(quán)圖模型的有效性試驗(yàn)不再

7、實(shí)現(xiàn)高效的web頁(yè)面聚類,就必須要找出web頁(yè)面之單獨(dú)驗(yàn)證o間的內(nèi)部鏈接關(guān)系,特別是頁(yè)面之間的相似性更是尤web使用挖掘中的聚類分析一般分為用戶聚類為重要。同時(shí),每個(gè)頁(yè)面的重要程度、頁(yè)面內(nèi)容以及頁(yè)和頁(yè)面聚類兩類。用戶聚類是對(duì)用戶的會(huì)話進(jìn)行分析,根據(jù)用戶的訪問行為,尋找行為模式相似的用戶l2J。將這些用戶分為一組,則組內(nèi)的用戶可以共享收稿日期:2009一O1—18;修回日期:2009一o3—28一個(gè)用戶配置文件,即該組用戶訪問頻率較高的頁(yè)面基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(70672097);國(guó)家自然科學(xué)基金集合。頁(yè)面

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。