資源描述:
《基于語義概念相似度的科技文獻推薦算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、http://www.paper.edu.cn1基于語義概念相似度的科技文獻推薦算法王位春,張銘北京大學信息科學技術(shù)學院,北京(100871)E-mail:mzhang@net.pku.edu.cn摘要:本文提出了一種基于語義概念相似度的科技文獻的個性化推薦方法,首先使用用戶對各文獻標記的標簽(tag)構(gòu)建語義概念,然后使用構(gòu)建的語義概念表示用戶偏好和文獻特征(profile),并根據(jù)profile的相似度選擇相鄰用戶,最終在相鄰用戶標記過的文獻中通過基于文本過濾的推薦算法選擇相關(guān)文獻推薦給用戶。該方法運用于本文所在的科研服務平臺的個性化推薦模塊中,經(jīng)實驗驗證,本方法
2、不僅提高了推薦的準確率,而且能為用戶發(fā)現(xiàn)新的感興趣的資源。關(guān)鍵詞:個性化推薦;語義概念;標簽中圖分類號:5-3、計算機應用技術(shù)1.引言信息技術(shù)的飛速發(fā)展與數(shù)字資源數(shù)量的爆炸式增長使得傳統(tǒng)的以關(guān)鍵字為檢索手段的信息獲取技術(shù)不能再滿足人們的需求。在這種情況下,個性化推薦系統(tǒng)應運而生。推薦系統(tǒng)是實現(xiàn)個性化服務的一項重要內(nèi)容,其最大的優(yōu)點在于收集用戶特征資料并根據(jù)用戶偏好為用戶主動進行個性化的推薦,并且跟蹤用戶的興趣變化,實時更新推薦。目前應用最廣泛的推薦技術(shù)包括基于內(nèi)容過濾的推薦技術(shù)和協(xié)同過濾推薦技術(shù)。基于內(nèi)[1]容過濾的推薦技術(shù)根據(jù)資源與用戶個性化信息的相似度推薦資源。I
3、fWeb根據(jù)網(wǎng)頁內(nèi)容的[2]相似性判斷用戶偏好,CiteSeer采用向量空間模型、編輯距離和CCIDF模型,根據(jù)資源和用戶興趣的相似性推薦資源。基于內(nèi)容過濾的系統(tǒng)簡單有效,但難以區(qū)分資源內(nèi)容的品質(zhì)和風格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶已有興趣相似的資源。協(xié)同過濾推薦技術(shù)假定用戶購買產(chǎn)品或瀏覽信息時受他人的購買或瀏覽行為的影響,通過分析用戶之間的關(guān)系進行資源推薦,把相似用戶瀏覽的資源作為推薦的內(nèi)容。它克服了基于內(nèi)容過濾的推薦方法不能為用戶發(fā)現(xiàn)新的感興趣資源的缺陷,但在實踐過程中也遇到了稀疏性和可擴展性的問題。稀疏性是指在系統(tǒng)使用初期由于資源還未獲得足
4、夠多的評價很難發(fā)現(xiàn)相似的用戶。針對該問題,有人提出了單值分解方法(SingularValueDecomposition或SVD)通過[3]降低維空間來增加數(shù)據(jù)的密度??蓴U展性問題是指隨著系統(tǒng)用戶和資源的增多,系統(tǒng)性能越來越低。對此問題可采用基于規(guī)則、聚類方法、貝葉斯網(wǎng)、Horting圖、基于近鄰的協(xié)同過濾方法等通過預先建立一些反映相關(guān)性或相似性的模型提高系統(tǒng)在預測和推薦時的性能。[4]基于內(nèi)容過濾與協(xié)同過濾相結(jié)合的方法有利于克服兩種方法各自的缺點。一些系統(tǒng)如文獻對兩種方法進行了合并。Fab系統(tǒng)把與用戶相關(guān)的資源內(nèi)容作為用戶描述信息的部分內(nèi)容,[5]使用基于內(nèi)容過濾的方
5、法計算用戶相似性,實現(xiàn)兩種方法的結(jié)合。由于一些科技文獻系統(tǒng)缺少用戶評分矩陣,上述很多基于評分矩陣的方法無法使用。為充分利用文本內(nèi)容豐富這一特點,Citeseer通過文本相似性、引文信息分析等技術(shù)實現(xiàn)科技文獻推薦服務。Acm,cs.bib等通過文本搜索的形式實現(xiàn)相似論文的查找;McNee等人將文[6]獻作者視為用戶,將引文視為作者對相關(guān)文獻的推薦應用協(xié)同過濾技術(shù)進行推薦。1本課題得到高等學校博士學科點專項科研基金資助課題"網(wǎng)絡時代的科技論文快速共享專項研究"(編號20070001073),惠普大學合作基金(編號HLCFY08-001)和國家自然科學基金(90412010
6、、60573166)的資助。-1-http://www.paper.edu.cn本文在一個基于DSpace的科研服務平臺PKUSpace(http://fusion.grids.cn/PKUSpace/)中設計并實現(xiàn)了文獻推薦引擎。該平臺致力于建立一個科研服務與交流的平臺,提供科技文獻的存儲、共享、檢索、導航等基本功能,并融入web2.0因素,提供協(xié)同標簽(collaborativetag),閱讀筆記及個人文獻視圖等功能,并在此基礎上提供標簽挖掘及文獻的個性化推薦服務,系統(tǒng)結(jié)構(gòu)如圖1所示。本文把作為web2.0重要特征的協(xié)同標簽引用到推薦算法中來,使用協(xié)同標簽構(gòu)建語義
7、概念及用戶偏好。本文的方法能夠適用于所有提供了協(xié)同標簽功能的系統(tǒng)。收藏論文,定期email推文獻資源的標注標簽,薦,在線論文檢索,界面評論……組織與瀏覽推薦。主題展示邏輯層數(shù)據(jù)讀取接口相關(guān)標簽組織論文推薦引擎標簽挖掘存儲層科研服務平臺DSpace圖1科研服務平臺PKUSpace的系統(tǒng)結(jié)構(gòu)Fig1theframeworkofPKUSpace,aScientificLiteratureServicePlatform2.算法描述2.1語言概念的定義本文將由語義概念及其關(guān)系構(gòu)成的本體(Ontology)結(jié)構(gòu)定義為一個5元組:(C,V,R,rel,map)其中