資源描述:
《初始聚類中心優(yōu)化的K-均值項目聚類推薦算法-論文.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第28卷第3期空軍預警學院學報、,01.28NO.32014年6月JournalOfAirForceEarlyWaminuAcademJun.2014DOI:10.3969/j.issn.2095—5839.2014.03.013初始聚類中心優(yōu)化的K一均值項目聚類推薦算法胡旭,魯漢榕,陳新,周國安(空軍預警學院,武漢430019)摘要:針對協(xié)同過濾推薦系統(tǒng)存在的數(shù)據(jù)稀疏性和擴展性差問題,提出了初始聚類中心優(yōu)化的K.均值項目聚類推薦算法.該算法首先采用SlopeOne方法對評分矩陣預測填充來緩解數(shù)據(jù)稀疏性,然后采用初始聚類中心優(yōu)化的K.均值算法對項目進行聚類,將相似
2、度高的項目聚到同一個類中,最后根據(jù)目標項目所在的聚類搜索其最近鄰并產(chǎn)生推薦.實驗結果表明,該算法有效改善了數(shù)據(jù)的稀疏性和擴展性,提高了推薦質(zhì)量.關鍵詞:協(xié)同過濾推薦;初始聚類中心優(yōu)化;K一均值聚類中圖分類號:TP311;0235文獻標志碼:A文章編號:2095—5839(2014)03—0203—05協(xié)同過濾技術是當前電子商務推薦系統(tǒng)中和擴展性差問題,本文提出初始聚類中心優(yōu)化的應用最廣泛、最成功的技術,其基本原理是尋找K.均值項目聚類推薦算法.該算法首先構建用與當前用戶具有相似興趣的用戶,并根據(jù)這些用戶一項目評分矩陣并通過SlopeOne方法對未評分戶對某項目的已
3、知評分來預測該用戶對此項目項目進行預測填充,緩解數(shù)據(jù)稀疏性;然后根據(jù)的評分,從而為用戶進行推薦.但是,隨著電初始聚類中心優(yōu)化的K.均值算法對項目進行聚子商務系統(tǒng)規(guī)模的不斷擴大,推薦系統(tǒng)的用戶數(shù)類;最后在目標項目所在的類中進行協(xié)同過濾并量和項目數(shù)量也隨之高速增長,數(shù)據(jù)稀疏、擴展產(chǎn)生最終的推薦結果.實驗結果表明,本文提出性差和冷啟動等問題愈發(fā)凸顯,嚴重影響推薦質(zhì)的推薦算法具有較好的推薦結果.量.為此,文獻[2]提出采用項目評分預測的方法對未評分項目進行預測并填充評分矩陣,有效1K一均值算法的初始聚類中心優(yōu)化地緩解了數(shù)據(jù)稀疏性,提高了推薦質(zhì)量.文獻K.均值算法作為經(jīng)典的
4、聚類方法以其計算[3]采用奇異值分解技術來降低評分矩陣的維簡單、快速的特點在聚類分析中得到了廣泛應度,有效緩解了數(shù)據(jù)稀疏性問題,并提高了推薦用,但是它也存在一些不可避免的問題:①假系統(tǒng)的伸縮能力.但是降維會導致信息丟失,而設知道聚類數(shù)k,實際的類別數(shù)不一定是k;且降維效果與數(shù)據(jù)集密切相關,在矩陣維數(shù)很高②聚類結果與初始聚類中心和數(shù)據(jù)輸入順序有的情況下降維效果難以保證.文獻[4]提出了一關;③對孤立點敏感.因此,這些缺陷嚴重影響種基于神經(jīng)網(wǎng)絡的方法,通過構建BP神經(jīng)網(wǎng)絡了K.均值算法的聚類效果,將其應用于協(xié)同過預測評分矩陣中的未知數(shù)據(jù),充分緩解數(shù)據(jù)稀疏濾推薦中,會對
5、推薦效率產(chǎn)生較大影響.本文性問題.但是由于BP神經(jīng)網(wǎng)絡模型的學習速度針對K.均值聚類算法的缺陷,對初始聚類中心較慢,運行代價是個很大的問題.文獻[5]提出基于點密度進行優(yōu)化,同時對孤立點進行單獨處了基于項目聚類的協(xié)同過濾推薦算法,對項目進理,使之不影響聚類中心值.行聚類,確保在同一類中的用戶評分最為相似,1.1相關概念然后在縮小的項目空間上搜尋最近鄰,有效提高1)點密度.對數(shù)據(jù)集中的樣本點,以了推薦系統(tǒng)的實時性和擴展性,但推薦精度卻沒X為球心、r>0)為半徑的球域所包含的樣本點有提高.文獻[6]提出的兩階段聯(lián)合聚類協(xié)同過的個數(shù)稱為點X的密度,記為D(x),即濾算法
6、,對原始矩陣中的評分模式進行用戶和項目2個維度的聯(lián)合聚類,然后在類別內(nèi)部通過加D(x)=l{pld(x,P)r,p∈}l(1)權分解矩陣的方法進行未知評分預測,在降低預式中,d(x,p)表示樣本點X和點P的距離.本文測階段計算量的同時提高了預測精度.采取相似度作為距離度量,即d(x,P)=sim(x,P),針對協(xié)同過濾推薦系統(tǒng)存在的數(shù)據(jù)稀疏性故有收稿日期:2014.0415作者簡介:胡旭(1990一),男,碩士生,主要從事智能技術與智能決策研究204空軍預警學院學報2014年D)=I{plsim(x,P)s,PE)l(2)而言更加有效且具有唯一性.此外,由于初始聚
7、式中,sim(x,p)表示樣本X與P的相似度,£是設類中心的搜索只在集合G中進行而非全局搜索,定的相似度閾值.大大縮小了搜索范圍,并減短了搜索時間.2)孤立點.對于數(shù)據(jù)集中的樣本點,若1-3孤立點的處理D∽8、_均值聚類