資源描述:
《基于網頁概率潛在語義信息的用戶興趣聚類-論文.pdf》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、CN43—1258/TP計算機工程與科學第36卷第4期2014年4月ISSN1OO7—13OXComputerEngineering&ScienceVo1.36,No.4,Apr.2014文章編號:1007—130X(2014)04—0765—07基于網頁概率潛在語義信息的用J,白。/\趣聚類錢雪忠,吳志媛(江南大學物聯(lián)網工程學院,江蘇無錫214122)摘要:為了能準確挖掘用戶興趣點,首先利用概率潛在語義分析PLSA模型將“網頁一詞”矩陣向量投影到概率潛在語義向量空間,并提出“自動相似度閾值選擇”方法得到網頁間的相似度閾值,最后提出將平面
2、劃分法與凝聚式層次聚類相結合的凝聚式層次晟中心點HAK—medoids算法,實現(xiàn)用戶興趣點聚類。實驗結果表明,與傳統(tǒng)的基于劃分的算法相比,HAK—medoids算法聚類效果更好。同時,提出的用戶興趣點聚類技術在個性化服務領域可提高個性化推薦和搜索的效率。關鍵詞:概率潛在語義分析;自動相似度閾值選擇;用戶興趣點;凝聚式層次k中心點;個性化服務中圖分類號:TP274文獻標志碼:Adoi:10.3969/i.issn.1007~13OX.2014.04.033User’Sinterestclusteringbasedonwebpageproba
3、bilisticlatentsemanticinformationQIANXue—zhong.WUZhi—yuan(SchooloflnternetofThingsEngineering,JiangnanUniversity,Wuxi214122,China)Abstract:Tomineuser’Sinterestsaccurately,probabilisticlatentsemanticanalysis(PLSA)modelisfirstlyusedtoprojectwebpage—wordmatrixvectorintoproba
4、bilisticlatentsemanticvectorspace.Amethodof“auto—selectedsimilaritythreshold”isproposedtogetwebpagessimilaritythreshold.Atlast,combinedwithdivisioryalgorithmsandhierarchicalagglomerativeclustering,ahierarchicalagglom—erativek-medoidsclusteringalgorithmisproposedtorealizec
5、lusteruser’Sinterests.Theexperimentalresultsshowthat,comparedwiththetraditionaldivisioryalgorithms,thehierarchicalagglomerativek—medoidsalgorithmhasabetterclusteringeffect.Furthermore,user’Sinterestclusteringtechniquecanimprovetheefficiencyofpersonalizedrecommendationands
6、earchinuser’personalizedservicefields.Keywords:probabilisticlatentsemanticanalysis;auto—selectedsimilaritythreshold;user’Sinterestpoints;hierarchicalagglomerativek-medoids;personalizedservice檢索模型和信息加工過程來提高檢索的準確性,并引言沒有對用戶給予更多的關注。特別是以網絡搜索引擎為例,不同背景的用戶使用相同的提問來查隨著Web3.0時代的到來,人
7、們對信息獲取詢,得到的結果沒有區(qū)別,導致用戶不容易發(fā)現(xiàn)自手段和效率提出越來越高的要求。傳統(tǒng)互聯(lián)網的己的最新興趣。個性化服務技術的出現(xiàn)在一定服務模式正在逐漸向主動式、個性化、高效率轉變。程度上解決了Internet中信息海量增長與用戶獲目前的信息檢索方式主要是基于關鍵詞匹配的檢取信息手段相對簡單之間的矛盾。以Google等為索方式,如向量空間模型VSM(VectorSpace首的商業(yè)化互聯(lián)網公司也提出,下一代互聯(lián)網必將Mode1)口]、基于模糊語言的方法等,檢索系統(tǒng)多從是智能化、個性化的。國內外有很多研究者對個性收稿日期:2012一O9—2
8、4;修回日期:2013-03—29基金項目:國家自然科學基金資助項目(61103129);江蘇省科技支撐計劃資助項目(BE2009009)通信地址:214122江蘇省無錫市蠡湖大道1800號江