資源描述:
《基于有向帶權(quán)圖的頁(yè)面聚類算法研究new》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、計(jì)算機(jī)技術(shù)與發(fā)展Vo1第期.19No.92009年9月COMPUFERTECHNOLOGYANDDEVELOPMENTSep.2009基于有向帶權(quán)圖的頁(yè)面聚類算法研究方杰,張結(jié)魁,周軍(合肥工業(yè)大學(xué),安徽合肥230009)摘要:聚類算法是數(shù)據(jù)挖掘中的一個(gè)重要的分析工具。Web使用挖掘中的聚類分析一般分為用戶聚類和頁(yè)面聚類其中頁(yè)面聚類是指導(dǎo)網(wǎng)站結(jié)構(gòu)離線優(yōu)化的重要方法。利用有向帶權(quán)圖表示用戶的訪問會(huì)話記錄,對(duì)建立的有向帶權(quán)圖模型運(yùn)用聚類算法實(shí)現(xiàn)頁(yè)面聚類。選取真實(shí)數(shù)據(jù)對(duì)典型的聚類算法K—n瑚J1s算法、DBSCAN算法和COBWEB算法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在選取的數(shù)據(jù)集范圍內(nèi)
2、,COBWEB算法準(zhǔn)確率要高于K—means算法和DKSCAN算法,時(shí)間性能與用戶訪問頻率矩陣大小有密切關(guān)系。關(guān)鍵詞:有向帶權(quán)圖;聚類算法;頁(yè)面聚類;K—n算法;Ⅸ:AN算法;0()BwEB算法中圖分類號(hào);TP301.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1673—629X(2009)09—0049—05StudyonPageClusteringAlgorithmsBasedonWeightedDirectedGraphFANGJie,ZHANGJie—kui,ZHOUJun(HefeiUniversityofTechnology,Hefei230009,China)Abstract:
3、Clusteringalgorithmis8/1importantanalyticaltoolindatamining.Clusteringanalysisisgenerallyfallenintou8汀clusteringandpageclusteringinWebussgemining.Pageclusteringis趴importantmethodsforguidingforthestructureofthesiteoff—lineoptimiza·tion.Ttlispaperusewe~hteddirectedgraphtOdescribeuservisitand
4、conversationrecords.a(chǎn)nduseclusteringalgorithmstoreal~ethepageclusteringbytheweighteddirectedgraphmodeestablished.SelecttherealdataC&1TiesontheexperimenttOthetypieadclusteringal·gorithmsK—meansalgorithm。DBSCANalgorithmandO0]’Balgorithm.1_heexperimentsresultsindicatethatintheselecteddatasets
5、,theaccuracyrateofODBWEBalgorithmishigherthanthatofK—H坨ansalgorithmandDI~_ANalgorithm。andthetimecapabilityiscloselyrelatedtOthesizeofuse1-visitfrequencymatrix.Keywords:weighteddirectedgraph;clusteringalgorithms;pageclustering;K—meigD~algorithm;D】3SCANalgorithm;a)EI砌aIg0·rithmO引言面的訪問情況也是非常重
6、要的信息。因此可以利用有互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的分布式全球信息服務(wù)向帶權(quán)圖來表示用戶會(huì)話,運(yùn)用轉(zhuǎn)移概率矩陣描述超中心。如何為用戶快速、高效、準(zhǔn)確地提供他們所需要鏈接的重要性,并且在建模的過程中結(jié)合站點(diǎn)的拓?fù)涞?,并具有高度相關(guān)性的一簇Web頁(yè)面,已經(jīng)成為業(yè)結(jié)構(gòu)。這樣不僅可以較好刻畫用戶的訪問行為,還描界研究的主要內(nèi)容。解決這個(gè)問題的一個(gè)有效途徑就述了網(wǎng)站的拓?fù)浣Y(jié)構(gòu)以及站點(diǎn)的結(jié)構(gòu)特征數(shù)據(jù)?;谑菍?duì)頁(yè)面進(jìn)行合理的聚類分析,從而更高效地進(jìn)行有向帶權(quán)圖的用戶訪問模型的有效性在文獻(xiàn)[1]已經(jīng)web信息的分類、存儲(chǔ)、檢索和集成。然而,若要真正得到證明,放對(duì)于有向帶權(quán)圖模型的有效性試驗(yàn)不再
7、實(shí)現(xiàn)高效的web頁(yè)面聚類,就必須要找出web頁(yè)面之單獨(dú)驗(yàn)證o間的內(nèi)部鏈接關(guān)系,特別是頁(yè)面之間的相似性更是尤web使用挖掘中的聚類分析一般分為用戶聚類為重要。同時(shí),每個(gè)頁(yè)面的重要程度、頁(yè)面內(nèi)容以及頁(yè)和頁(yè)面聚類兩類。用戶聚類是對(duì)用戶的會(huì)話進(jìn)行分析,根據(jù)用戶的訪問行為,尋找行為模式相似的用戶l2J。將這些用戶分為一組,則組內(nèi)的用戶可以共享收稿日期:2009一O1—18;修回日期:2009一o3—28一個(gè)用戶配置文件,即該組用戶訪問頻率較高的頁(yè)面基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(70672097);國(guó)家自然科學(xué)基金集合。頁(yè)面