基于有向帶權(quán)圖的頁面聚類算法研究new

ID：33480469

大小：433.05 KB

頁數(shù)：5頁

時(shí)間：2019-02-26

資源描述：

《基于有向帶權(quán)圖的頁面聚類算法研究new》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、計(jì)算機(jī)技術(shù)與發(fā)展Vo1第期．19No．92009年9月COMPUFERTECHNOLOGYANDDEVELOPMENTSep．2009基于有向帶權(quán)圖的頁面聚類算法研究方杰，張結(jié)魁，周軍(合肥工業(yè)大學(xué)，安徽合肥230009)摘要：聚類算法是數(shù)據(jù)挖掘中的一個(gè)重要的分析工具。Web使用挖掘中的聚類分析一般分為用戶聚類和頁面聚類其中頁面聚類是指導(dǎo)網(wǎng)站結(jié)構(gòu)離線優(yōu)化的重要方法。利用有向帶權(quán)圖表示用戶的訪問會(huì)話記錄，對(duì)建立的有向帶權(quán)圖模型運(yùn)用聚類算法實(shí)現(xiàn)頁面聚類。選取真實(shí)數(shù)據(jù)對(duì)典型的聚類算法K—n瑚J1s算法、DBSCAN算法和COBWEB算法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，在選取的數(shù)據(jù)集范圍內(nèi)

2、，COBWEB算法準(zhǔn)確率要高于K—means算法和DKSCAN算法，時(shí)間性能與用戶訪問頻率矩陣大小有密切關(guān)系。關(guān)鍵詞：有向帶權(quán)圖；聚類算法；頁面聚類；K—n算法；Ⅸ：AN算法；0()BwEB算法中圖分類號(hào)；TP301．6文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1673—629X(2009)09—0049—05StudyonPageClusteringAlgorithmsBasedonWeightedDirectedGraphFANGJie，ZHANGJie—kui，ZHOUJun(HefeiUniversityofTechnology，Hefei230009，China)Abstract：

3、Clusteringalgorithmis8／1importantanalyticaltoolindatamining．Clusteringanalysisisgenerallyfallenintou8汀clusteringandpageclusteringinWebussgemining．Pageclusteringis趴importantmethodsforguidingforthestructureofthesiteoff—lineoptimiza·tion．Ttlispaperusewe~hteddirectedgraphtOdescribeuservisitand

4、conversationrecords．a(chǎn)nduseclusteringalgorithmstoreal~ethepageclusteringbytheweighteddirectedgraphmodeestablished．SelecttherealdataC&1TiesontheexperimenttOthetypieadclusteringal·gorithmsK—meansalgorithm。DBSCANalgorithmandO0]’Balgorithm．1_heexperimentsresultsindicatethatintheselecteddatasets

5、，theaccuracyrateofODBWEBalgorithmishigherthanthatofK—H坨ansalgorithmandDI~_ANalgorithm。andthetimecapabilityiscloselyrelatedtOthesizeofuse1-visitfrequencymatrix．Keywords：weighteddirectedgraph；clusteringalgorithms；pageclustering；K—meigD~algorithm；D】3SCANalgorithm；a)EI砌aIg0·rithmO引言面的訪問情況也是非常重

6、要的信息。因此可以利用有互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的分布式全球信息服務(wù)向帶權(quán)圖來表示用戶會(huì)話，運(yùn)用轉(zhuǎn)移概率矩陣描述超中心。如何為用戶快速、高效、準(zhǔn)確地提供他們所需要鏈接的重要性，并且在建模的過程中結(jié)合站點(diǎn)的拓?fù)涞?，并具有高度相關(guān)性的一簇Web頁面，已經(jīng)成為業(yè)結(jié)構(gòu)。這樣不僅可以較好刻畫用戶的訪問行為，還描界研究的主要內(nèi)容。解決這個(gè)問題的一個(gè)有效途徑就述了網(wǎng)站的拓?fù)浣Y(jié)構(gòu)以及站點(diǎn)的結(jié)構(gòu)特征數(shù)據(jù)。基于是對(duì)頁面進(jìn)行合理的聚類分析，從而更高效地進(jìn)行有向帶權(quán)圖的用戶訪問模型的有效性在文獻(xiàn)[1]已經(jīng)web信息的分類、存儲(chǔ)、檢索和集成。然而，若要真正得到證明，放對(duì)于有向帶權(quán)圖模型的有效性試驗(yàn)不再

7、實(shí)現(xiàn)高效的web頁面聚類，就必須要找出web頁面之單獨(dú)驗(yàn)證o間的內(nèi)部鏈接關(guān)系，特別是頁面之間的相似性更是尤web使用挖掘中的聚類分析一般分為用戶聚類為重要。同時(shí)，每個(gè)頁面的重要程度、頁面內(nèi)容以及頁和頁面聚類兩類。用戶聚類是對(duì)用戶的會(huì)話進(jìn)行分析，根據(jù)用戶的訪問行為，尋找行為模式相似的用戶l2J。將這些用戶分為一組，則組內(nèi)的用戶可以共享收稿日期：2009一O1—18；修回日期：2009一o3—28一個(gè)用戶配置文件，即該組用戶訪問頻率較高的頁面基金項(xiàng)目：國家自然科學(xué)基金項(xiàng)目(70672097)；國家自然科學(xué)基金集合。頁面

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于有向帶權(quán)圖的頁面聚類算法研究new

基于有向帶權(quán)圖的頁面聚類算法研究new

相關(guān)文章

相關(guān)標(biāo)簽