資源描述:
《信息檢索中遷移markov網(wǎng)絡(luò)模型的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、江西師范大學(xué)碩士學(xué)位論文信息檢索中遷移Markov網(wǎng)絡(luò)模型的研究姓名:余美華申請學(xué)位級別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:王明文20090501摘要Web信息的快速增長,給信息檢索系統(tǒng)帶來了巨大挑戰(zhàn)。傳統(tǒng)的檢索模型需要在一個(gè)相對固定的數(shù)據(jù)集上通過訓(xùn)練得到,不具備開放的學(xué)習(xí)功能,而Web上的信息是實(shí)時(shí)更新的,檢索模型由于無法對新的數(shù)據(jù)進(jìn)行學(xué)習(xí),檢索性能必將隨著Web信息的更新而逐漸下降,現(xiàn)有的解決辦法之一是將新數(shù)據(jù)加入到原有的數(shù)據(jù)集中對模型重新進(jìn)行訓(xùn)練,由于模型對原有數(shù)據(jù)集學(xué)習(xí)所獲得的知識并沒有被保留,這勢必浪費(fèi)大量的時(shí)間進(jìn)行重復(fù)學(xué)習(xí);另一種方法則是在新數(shù)據(jù)集上對模型進(jìn)行
2、訓(xùn)練,若新的數(shù)據(jù)集數(shù)據(jù)量不夠則會影響模型的學(xué)習(xí)效果。因而,如何使得檢索模型能較好學(xué)習(xí)新的數(shù)據(jù)并實(shí)現(xiàn)在目標(biāo)數(shù)據(jù)集上的準(zhǔn)確檢索乜^,邑111,成為了信息檢索模型研究的熱點(diǎn)之一。本文中我們將檢索模型在發(fā)生變化的數(shù)據(jù)上的訓(xùn)練可以看作是一個(gè)學(xué)習(xí)遷移的過程陋’1引,檢索模型在原有數(shù)據(jù)集上的訓(xùn)練勢必對其在新數(shù)據(jù)上的學(xué)習(xí)有所影響,即在原有數(shù)據(jù)集上建立模型中所獲得的知識對該模型在新數(shù)據(jù)上的訓(xùn)練有所幫助,從而減少由于數(shù)據(jù)發(fā)生改變而導(dǎo)致模型需要重新進(jìn)行學(xué)習(xí)所耗費(fèi)的時(shí)間。因此,為解決上述問題,我們結(jié)合遷移學(xué)習(xí)理論?和Markov網(wǎng)絡(luò)理論呻1,提出了一種新的方法,思想是遷移Markov網(wǎng)絡(luò)用于實(shí)現(xiàn)
3、檢索模型的學(xué)習(xí),通過獲取先驗(yàn)知識,實(shí)現(xiàn)在目標(biāo)數(shù)據(jù)集上高效檢索目的。具體的思路是:首先建立一個(gè)數(shù)據(jù)集上的初始檢索模型,其次,衡量用于建模的先驗(yàn)數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集中數(shù)據(jù)分布的差異性,在本文中我們使用Kullback—Leiblerdivergence口,71(KL偏離度)的測量公式來度量這一分布的不同。且所得的KL偏離值也可用于確定檢索公式中的平衡參數(shù)(也就是確定遷移先驗(yàn)數(shù)據(jù)中知識的“量”),然后,通過遷移舊數(shù)據(jù)集上的先驗(yàn)知識到目標(biāo)數(shù)據(jù)集上,我們對基于Markov網(wǎng)絡(luò)的檢索模型進(jìn)行修正,并在目標(biāo)數(shù)據(jù)集上進(jìn)行檢索。這樣就可以將以將以往被摒棄的先驗(yàn)數(shù)據(jù)通過有效的遷移學(xué)習(xí)利用到目標(biāo)
4、數(shù)據(jù)集的學(xué)習(xí)中,使檢索模型能夠快速學(xué)習(xí)并實(shí)現(xiàn)目標(biāo)文檔的高效檢索。多組實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的新方法在性能上要優(yōu)于BM25算法∞,2“2引,T一檢驗(yàn)n6’刪的結(jié)果也顯示模型的性能提高水平是顯著的。本文的工作和創(chuàng)新點(diǎn)在于:1.首次將遷移學(xué)習(xí)理論用于信息檢索領(lǐng)域,將知識的遷移和有指導(dǎo)的遷移學(xué)習(xí)等思想成功應(yīng)用在基于Markov網(wǎng)絡(luò)的信息檢索模型聆·氐峨刪中,從構(gòu)造的Markov網(wǎng)絡(luò)中成功地學(xué)習(xí)先驗(yàn)數(shù)據(jù)。2.本文通過遷移先驗(yàn)數(shù)據(jù)集的知識,并利用部分新數(shù)據(jù)集,來修正所提出的檢索模型,并最終實(shí)現(xiàn)基于Markov網(wǎng)絡(luò)的檢索模型能在新的數(shù)據(jù)集上的高效檢索。這樣可以大大減少重新建立一個(gè)適用于新數(shù)
5、據(jù)集的檢索模型所耗費(fèi)的時(shí)間。3.通過實(shí)驗(yàn)驗(yàn)證并分析了進(jìn)行遷移學(xué)習(xí)后的基于Markov網(wǎng)絡(luò)的信息檢索模型的性能,并將常用的BM25算法與經(jīng)過遷移學(xué)習(xí)的Markov網(wǎng)絡(luò)信息檢索模型的性能進(jìn)行比較。實(shí)驗(yàn)表明本文提出遷移基于Markov網(wǎng)絡(luò)模型的方法表現(xiàn)比較優(yōu)異,在很大程度上提高了檢索效率。關(guān)鍵詞:信息檢索;遷移學(xué)習(xí);Markov網(wǎng)絡(luò);Kullback.1eibler偏離度;UABSTRACTAlongwiththedevelopmentofintemet,alotofnewdataappearsinthewebeveryday.Itbringsagreatchallengeto
6、retrievalsystem.Informationisinchangingandourretrievalmodelisgottenbytrainingonamountofdatasetandneedmuchtimetorebuild.Toconstructaretrievalmodeltoadaptthenewdataquicklyandtoretrievalthenewdocumentsaccuratelyisbecominganimportantresearchtopic.Traditionalretrievalmodelisimpossibleinlearnin
7、gnewdata,retrievaleffectbecome10we/"whenthedocumentsincrease.Andretrievalmodelneedcostalotoftimetomodifyforadaptingnewdataset.Becauseinformationisintheexponentialgrowth,andthetrainingofretrievalmodelisdescribedasaprocessoftransferlearningprocess.Andthetrainingofoldd