資源描述:
《基于有向帶權(quán)圖的頁面聚類算法研究new》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、計算機技術(shù)與發(fā)展Vo1第期.19No.92009年9月COMPUFERTECHNOLOGYANDDEVELOPMENTSep.2009基于有向帶權(quán)圖的頁面聚類算法研究方杰,張結(jié)魁,周軍(合肥工業(yè)大學,安徽合肥230009)摘要:聚類算法是數(shù)據(jù)挖掘中的一個重要的分析工具。Web使用挖掘中的聚類分析一般分為用戶聚類和頁面聚類其中頁面聚類是指導網(wǎng)站結(jié)構(gòu)離線優(yōu)化的重要方法。利用有向帶權(quán)圖表示用戶的訪問會話記錄,對建立的有向帶權(quán)圖模型運用聚類算法實現(xiàn)頁面聚類。選取真實數(shù)據(jù)對典型的聚類算法K—n瑚J1s算法、DBSCAN算法和COBWEB算法進行實驗。實驗結(jié)果表明,在選取的數(shù)據(jù)集范圍內(nèi)
2、,COBWEB算法準確率要高于K—means算法和DKSCAN算法,時間性能與用戶訪問頻率矩陣大小有密切關(guān)系。關(guān)鍵詞:有向帶權(quán)圖;聚類算法;頁面聚類;K—n算法;Ⅸ:AN算法;0()BwEB算法中圖分類號;TP301.6文獻標識碼:A文章編號:1673—629X(2009)09—0049—05StudyonPageClusteringAlgorithmsBasedonWeightedDirectedGraphFANGJie,ZHANGJie—kui,ZHOUJun(HefeiUniversityofTechnology,Hefei230009,China)Abstract:
3、Clusteringalgorithmis8/1importantanalyticaltoolindatamining.Clusteringanalysisisgenerallyfallenintou8汀clusteringandpageclusteringinWebussgemining.Pageclusteringis趴importantmethodsforguidingforthestructureofthesiteoff—lineoptimiza·tion.Ttlispaperusewe~hteddirectedgraphtOdescribeuservisitand
4、conversationrecords.a(chǎn)nduseclusteringalgorithmstoreal~ethepageclusteringbytheweighteddirectedgraphmodeestablished.SelecttherealdataC&1TiesontheexperimenttOthetypieadclusteringal·gorithmsK—meansalgorithm。DBSCANalgorithmandO0]’Balgorithm.1_heexperimentsresultsindicatethatintheselecteddatasets
5、,theaccuracyrateofODBWEBalgorithmishigherthanthatofK—H坨ansalgorithmandDI~_ANalgorithm。andthetimecapabilityiscloselyrelatedtOthesizeofuse1-visitfrequencymatrix.Keywords:weighteddirectedgraph;clusteringalgorithms;pageclustering;K—meigD~algorithm;D】3SCANalgorithm;a)EI砌aIg0·rithmO引言面的訪問情況也是非常重
6、要的信息。因此可以利用有互聯(lián)網(wǎng)已經(jīng)成為一個巨大的分布式全球信息服務(wù)向帶權(quán)圖來表示用戶會話,運用轉(zhuǎn)移概率矩陣描述超中心。如何為用戶快速、高效、準確地提供他們所需要鏈接的重要性,并且在建模的過程中結(jié)合站點的拓撲的,并具有高度相關(guān)性的一簇Web頁面,已經(jīng)成為業(yè)結(jié)構(gòu)。這樣不僅可以較好刻畫用戶的訪問行為,還描界研究的主要內(nèi)容。解決這個問題的一個有效途徑就述了網(wǎng)站的拓撲結(jié)構(gòu)以及站點的結(jié)構(gòu)特征數(shù)據(jù)?;谑菍撁孢M行合理的聚類分析,從而更高效地進行有向帶權(quán)圖的用戶訪問模型的有效性在文獻[1]已經(jīng)web信息的分類、存儲、檢索和集成。然而,若要真正得到證明,放對于有向帶權(quán)圖模型的有效性試驗不再
7、實現(xiàn)高效的web頁面聚類,就必須要找出web頁面之單獨驗證o間的內(nèi)部鏈接關(guān)系,特別是頁面之間的相似性更是尤web使用挖掘中的聚類分析一般分為用戶聚類為重要。同時,每個頁面的重要程度、頁面內(nèi)容以及頁和頁面聚類兩類。用戶聚類是對用戶的會話進行分析,根據(jù)用戶的訪問行為,尋找行為模式相似的用戶l2J。將這些用戶分為一組,則組內(nèi)的用戶可以共享收稿日期:2009一O1—18;修回日期:2009一o3—28一個用戶配置文件,即該組用戶訪問頻率較高的頁面基金項目:國家自然科學基金項目(70672097);國家自然科學基金集合。頁面