資源描述:
《基于概率矩陣分解的推薦算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、上海交通大學(xué)碩士學(xué)位論文基于概率矩陣分解的推薦算法研究碩士研究生:涂世濤學(xué)號(hào):1110329019導(dǎo)師:朱蘭娟副導(dǎo)師:申請學(xué)位:工學(xué)碩士學(xué)科:控制科學(xué)與工程所在單位:電子信息與電氣工程學(xué)院自動(dòng)化系答辯日期:2013年2月授予學(xué)位單位:上海交通大學(xué)萬方數(shù)據(jù)DissertationSubmittedtoShanghaiJiaoTongUniversityfortheDegreeofMasterResearchonProbabilisticMatrixFactorizationBasedRecommendatio
2、nAlgorithmCandidate:ShitaoTuStudentID:1110329019Supervisor:Prof.LanjuanZhuAssistantSupervisor:AcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ControllingScienceandEngineeringSchoolofElectronicInformationandAffiliation:ElectricalEngineeringDateofDefe
3、nce:Feb,2014Degree-Conferring-Institution:ShanghaiJiaoTongUniversity萬方數(shù)據(jù)萬方數(shù)據(jù)萬方數(shù)據(jù)上海交通大學(xué)碩士學(xué)位論文基于概率矩陣分解的推薦算法研究摘要推薦系統(tǒng)是信息過濾系統(tǒng)中的一種特殊形式,通過分析用戶的歷史興趣和偏好信息,在項(xiàng)目空間中確定用戶現(xiàn)在或者將來可能會(huì)喜歡的項(xiàng)目,進(jìn)而主動(dòng)向用戶提供相應(yīng)的項(xiàng)目推薦服務(wù)。隨著互聯(lián)網(wǎng)信息量的快速增長和人們希望有效獲取感興趣信息的需求日益明確,推薦系統(tǒng)在國內(nèi)外也逐漸引起了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注和研究。推薦
4、算法作為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘領(lǐng)域的一項(xiàng)研究熱點(diǎn),其中有效數(shù)據(jù)的稀疏性,大量用戶和推薦項(xiàng)目沒有歷史評(píng)價(jià)記錄,以及推薦精準(zhǔn)性和多樣性之間的平衡是推薦算法研究中的難點(diǎn)。本文首先介紹了推薦算法領(lǐng)域經(jīng)典的協(xié)同過濾方法和近年來熱門的矩陣分解算法以及其加入信任網(wǎng)絡(luò)傳播的模型,為了整合來自各數(shù)據(jù)源的海量的原始數(shù)據(jù),討論了對各推薦應(yīng)用場景下數(shù)據(jù)模型進(jìn)行清洗,整合歸一化的ETL方法,和該ETL過程中的容錯(cuò)算法。提出了推薦系統(tǒng)海量數(shù)據(jù)條件下的更新策略,以及ETL錯(cuò)誤快速恢復(fù)算法的配置和日志設(shè)計(jì),為后續(xù)推薦算法的有效應(yīng)用提供了必要的
5、數(shù)據(jù)準(zhǔn)備。隨后,針對目前推薦系統(tǒng)中冷啟動(dòng)用戶問題,本文嘗試對常用的推薦算法作一定的改進(jìn),通過對推薦過程的多臂賭博機(jī)(bandit)方法建模,評(píng)價(jià)前N次推薦序列的準(zhǔn)確性。具體而言,本文采用最大化置信上界(UCB)作為bandit決策的標(biāo)準(zhǔn)產(chǎn)生推薦,同時(shí)引入概率矩陣分解算法通過隨機(jī)梯度下降法能學(xué)習(xí)得到用戶、項(xiàng)目的后驗(yàn)概率,直接帶入U(xiǎn)CB決策方程實(shí)現(xiàn)了推薦與學(xué)習(xí)的同步。此外,本文還應(yīng)用了基于貝葉斯概率矩陣和基于變分貝葉斯方法的置信上界多臂賭博機(jī)推薦算法,分別從隨機(jī)和定量的角度解決概率矩陣分解中參數(shù)整定困難的不足,
6、并直接通過迭代中間變量估計(jì)評(píng)分值得統(tǒng)計(jì)量。此外,本文通過I萬方數(shù)據(jù)上海交通大學(xué)碩士學(xué)位論文MovieLens和Netflix公開數(shù)據(jù)集對提出的算法做了離線驗(yàn)證,結(jié)果顯示它們有效的提升了冷啟動(dòng)用戶條件下的推薦準(zhǔn)確度。為使推薦算法更好地運(yùn)用于實(shí)際系統(tǒng),本文在驗(yàn)證結(jié)果的基礎(chǔ)上進(jìn)一步分析了模型參數(shù)對于推薦結(jié)果的影響以及不同數(shù)據(jù)環(huán)境下的參數(shù)優(yōu)化組合。最后,本文給出了基于所提出ETL容錯(cuò)策略和推薦算法的系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)架構(gòu)和主要技術(shù)。關(guān)鍵詞:推薦算法,ETL,概率矩陣分解,多臂賭博機(jī)II萬方數(shù)據(jù)上海交通大學(xué)碩士學(xué)位論文Re
7、searchonProbabilisticMatrixFactorizationBasedRecommendationAlgorithmABSTRACTRecommendationsystemisaspecifickindofinformationfilteringsystem.Byanalyzingusers’pastbehavioraldataandpreference,thesystempredictsitemswhichwillprobablymeetwithuserinterest,andreco
8、mmendsthoseitemorservicetoendusers.Intheageofrapidgrowinginternet,thedemandforinformationisbecomingpersonalizedanddiversifiedwhichleadstotheresearchofrecommendationsystempopular.Recommendationhasbeenahotresea