資源描述:
《基于多特征融合的混合協(xié)同過濾算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、西南大學(xué)碩士學(xué)位論文大量的學(xué)者對(duì)協(xié)同過濾技術(shù)展開了研究,關(guān)于協(xié)同過濾的文獻(xiàn)更是如雨后春筍的出現(xiàn)在各大學(xué)術(shù)網(wǎng)站上。關(guān)于協(xié)同過濾的研究主要可以分為兩個(gè)方面:基于記憶的協(xié)同過濾算法和基于模型的協(xié)同過濾算法[12]。旱期的協(xié)同過濾就是從基于記記的方法開始的,基于記憶的方法根據(jù)用戶對(duì)項(xiàng)目的評(píng)分得到用戶間和項(xiàng)目問的相似關(guān)系,利用相似的用戶或項(xiàng)目的評(píng)價(jià)產(chǎn)生預(yù)測。基于記憶的方法又可以分為基于用戶的協(xié)同過濾和基于項(xiàng)目的協(xié)同過濾,主要可以概括為以下三個(gè)步驟:相似性的計(jì)算、鄰居的選擇以及預(yù)測。常用的相似性計(jì)算方法包括余弦相似性的方法[4,5]和皮爾森關(guān)聯(lián)相似的方法[6,7,8]。為了克服基于少量共同評(píng)分造成相似
2、性度量的不準(zhǔn)確,Herlocker[9]提出了增加一種關(guān)聯(lián)權(quán)重因子的萬法來平衡相似性的值。由于用戶的興隨是不斷變化的,僅僅利用過去的評(píng)分來度量用戶現(xiàn)在的相似性并不是恨準(zhǔn)確,基于此種考慮,Jeong[lO]使用迭代的信息傳送流程對(duì)相似進(jìn)行更新。在鄰居選擇部分,最經(jīng)典的鄰居選擇算法有陽制方法[11]和基于
3、淘值[12]的方法。標(biāo)準(zhǔn)的鄰居邊擇方法基于項(xiàng)目或用戶的相似性大小,Al司andro[13]根據(jù)用戶喜好重疊的多少來邊擇鄰居,該方法在存儲(chǔ)和時(shí)間花費(fèi)方面有小小的改進(jìn),然而,推薦的精度有待衡量。在預(yù)測方面,Ma在[14]中提出了一'種用戶和項(xiàng)目預(yù)測結(jié)合的方法,該方法通過判斷用戶和項(xiàng)目的相似鄰居來
4、決定采用何種方法進(jìn)行預(yù)測。在文獻(xiàn)[4]中,Marlin利用迷失數(shù)據(jù)的理論對(duì)評(píng)分進(jìn)行預(yù)測。基于模型的方法利用統(tǒng)計(jì)技術(shù)或機(jī)器學(xué)習(xí)等方法對(duì)己知的評(píng)分?jǐn)?shù)據(jù)離線構(gòu)建用戶的模型,利用構(gòu)建好的模型對(duì)迷失數(shù)據(jù)進(jìn)行實(shí)時(shí)預(yù)測,己知的基于模型的方法包括聚類的方法町,概率語義的方法IlEl,矩陣分解的方法幣,id],貝葉斯網(wǎng)絡(luò)的方法[17],線性回歸的方法[1町等。Koren在[19]中利用時(shí)間序列模式的方法對(duì)數(shù)據(jù)的有效范圍影響進(jìn)行追蹤構(gòu)建了暫時(shí)性動(dòng)態(tài)模型?;谀P偷姆椒ū容^穩(wěn)定,實(shí)時(shí)性較好。然而,建模需要大量的用戶和歷史評(píng)分,通常需要調(diào)整大量的參數(shù)、費(fèi)時(shí)并且難以更新:另外,基于模型的方法只把原始數(shù)據(jù)分成若干小類
5、,來表征所有用戶的評(píng)分模式,這大大降低了數(shù)據(jù)的多樣性,一般來說基于模型的方法比基于記憶的方法推薦效果稍差[20]。為了克服基于內(nèi)存和基于模型的缺點(diǎn)以改進(jìn)推薦的性能,目前,混合的方法被研究。莊永龍?jiān)谖墨I(xiàn)[21J中根據(jù)項(xiàng)目特征屬性構(gòu)建了項(xiàng)目特征模型,豐富了項(xiàng)目間的相似性度量使得預(yù)測精度有所提高。Lee在文獻(xiàn)[22]中通過構(gòu)建淚合的智能神經(jīng)網(wǎng)絡(luò)模型來處理樣本之間的相似度量。Gong在[12]中通過對(duì)用戶項(xiàng)目進(jìn)行聚類,在聚類后的簇中尋找相似的鄰居,該方法有效縮小了鄰居邊擇的時(shí)間。Xue在向中先對(duì)用戶進(jìn)行聚類,采用聚類平滑的方法對(duì)迷失數(shù)據(jù)填充,再用項(xiàng)目聚類的方法進(jìn)行預(yù)測。Jahrer[7J結(jié)合了不同
6、的模型(SVD,KNN,RestrictedBoltzrnannmachine等),2萬方數(shù)據(jù)第1章引言利用混合的推薦來改善預(yù)測的精度。1.3論文主要研究內(nèi)容和結(jié)構(gòu)安排1.3.1主要研究內(nèi)容目前,協(xié)同過濾技術(shù)被廣泛應(yīng)用在各大推薦系統(tǒng)中,然而,由于歷史數(shù)據(jù)的稀疏性使協(xié)同過濾的推薦質(zhì)量受到一定的影響,此外,隨著用戶和項(xiàng)目數(shù)量的增長,實(shí)時(shí)性、可擴(kuò)展性等問題也使協(xié)同過濾的發(fā)展受到限制。針對(duì)協(xié)同過濾技術(shù)面臨的上述問題,本文的研究內(nèi)容主要包括三個(gè)部分:1)針對(duì)數(shù)據(jù)稀疏導(dǎo)致傳統(tǒng)相似性度量不準(zhǔn)確的問題,提出了一種增強(qiáng)的相似性度量算法(EPCC),該算法綜合考慮了用戶或項(xiàng)目間共同評(píng)分和所有ì-'f分的差異,
7、使得相似性度量更加準(zhǔn)確。此外,為了緩解傳統(tǒng)協(xié)同過濾僅利用評(píng)分而面臨更大的稀疏性的影響,本文融合用戶項(xiàng)目的特征矩陣,提出了基于評(píng)分和特征融合的混合相似性度量算法,該算法首先利用SVD技術(shù)對(duì)用戶·項(xiàng)目評(píng)分矩陣進(jìn)行分解,然后把得到的用戶特征矩陣和項(xiàng)目特征矩陣與用戶.項(xiàng)目評(píng)分矩陣進(jìn)行融合,利用融合后的評(píng)分-特征向量對(duì)用戶和項(xiàng)目進(jìn)行相似性度量。不同于其他論文的后融合方式,本文采用中融合的混合相似度量方法可以動(dòng)態(tài)的平衡評(píng)分和特征的重要程度。實(shí)驗(yàn)表明,該方法比傳統(tǒng)相似算法度量更為準(zhǔn)確,有效的提高了預(yù)測精度,在數(shù)據(jù)稀疏情況下,效果更明顯;2)針對(duì)傳統(tǒng)鄰居選擇方法存在的問題,本文對(duì)鄰居相似大小和鄰居數(shù)量的關(guān)
8、系進(jìn)行研究分析,提出了一種改進(jìn)的近鄰選擇算法一一基于信任區(qū)間的k近鄰優(yōu)化算法。實(shí)驗(yàn)表明,該算法可以在時(shí)間復(fù)雜度幾乎不增加的情況下,選擇更優(yōu)的近鄰進(jìn)行推薦,提高了推薦精度;3)為了充分利用用戶和項(xiàng)目的預(yù)測來提高推薦準(zhǔn)確度,提出了基于用戶和項(xiàng)目二維鄰居選擇的混合協(xié)同過濾算法。傳統(tǒng)的用戶和項(xiàng)目混合協(xié)同過濾算法多是三者的預(yù)測結(jié)果的加權(quán)結(jié)合,或是根據(jù)二者稀疏情況選取不同的預(yù)測方法。本文算法在鄰居選擇時(shí)對(duì)用戶和項(xiàng)目進(jìn)行融合,根據(jù)用戶