信息檢索中遷移markov網(wǎng)絡(luò)模型的研究

信息檢索中遷移markov網(wǎng)絡(luò)模型的研究

ID:33955592

大?。?.12 MB

頁數(shù):54頁

時(shí)間:2019-03-02

信息檢索中遷移markov網(wǎng)絡(luò)模型的研究_第1頁
信息檢索中遷移markov網(wǎng)絡(luò)模型的研究_第2頁
信息檢索中遷移markov網(wǎng)絡(luò)模型的研究_第3頁
信息檢索中遷移markov網(wǎng)絡(luò)模型的研究_第4頁
信息檢索中遷移markov網(wǎng)絡(luò)模型的研究_第5頁
資源描述:

《信息檢索中遷移markov網(wǎng)絡(luò)模型的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、江西師范大學(xué)碩士學(xué)位論文信息檢索中遷移Markov網(wǎng)絡(luò)模型的研究姓名:余美華申請學(xué)位級別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:王明文20090501摘要Web信息的快速增長,給信息檢索系統(tǒng)帶來了巨大挑戰(zhàn)。傳統(tǒng)的檢索模型需要在一個(gè)相對固定的數(shù)據(jù)集上通過訓(xùn)練得到,不具備開放的學(xué)習(xí)功能,而Web上的信息是實(shí)時(shí)更新的,檢索模型由于無法對新的數(shù)據(jù)進(jìn)行學(xué)習(xí),檢索性能必將隨著Web信息的更新而逐漸下降,現(xiàn)有的解決辦法之一是將新數(shù)據(jù)加入到原有的數(shù)據(jù)集中對模型重新進(jìn)行訓(xùn)練,由于模型對原有數(shù)據(jù)集學(xué)習(xí)所獲得的知識并沒有被保留,這勢必浪費(fèi)大量的時(shí)間進(jìn)行重復(fù)學(xué)習(xí);另一種方法則是在新數(shù)據(jù)集上對模型進(jìn)行

2、訓(xùn)練,若新的數(shù)據(jù)集數(shù)據(jù)量不夠則會影響模型的學(xué)習(xí)效果。因而,如何使得檢索模型能較好學(xué)習(xí)新的數(shù)據(jù)并實(shí)現(xiàn)在目標(biāo)數(shù)據(jù)集上的準(zhǔn)確檢索乜^,邑111,成為了信息檢索模型研究的熱點(diǎn)之一。本文中我們將檢索模型在發(fā)生變化的數(shù)據(jù)上的訓(xùn)練可以看作是一個(gè)學(xué)習(xí)遷移的過程陋’1引,檢索模型在原有數(shù)據(jù)集上的訓(xùn)練勢必對其在新數(shù)據(jù)上的學(xué)習(xí)有所影響,即在原有數(shù)據(jù)集上建立模型中所獲得的知識對該模型在新數(shù)據(jù)上的訓(xùn)練有所幫助,從而減少由于數(shù)據(jù)發(fā)生改變而導(dǎo)致模型需要重新進(jìn)行學(xué)習(xí)所耗費(fèi)的時(shí)間。因此,為解決上述問題,我們結(jié)合遷移學(xué)習(xí)理論?和Markov網(wǎng)絡(luò)理論呻1,提出了一種新的方法,思想是遷移Markov網(wǎng)絡(luò)用于實(shí)現(xiàn)

3、檢索模型的學(xué)習(xí),通過獲取先驗(yàn)知識,實(shí)現(xiàn)在目標(biāo)數(shù)據(jù)集上高效檢索目的。具體的思路是:首先建立一個(gè)數(shù)據(jù)集上的初始檢索模型,其次,衡量用于建模的先驗(yàn)數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集中數(shù)據(jù)分布的差異性,在本文中我們使用Kullback—Leiblerdivergence口,71(KL偏離度)的測量公式來度量這一分布的不同。且所得的KL偏離值也可用于確定檢索公式中的平衡參數(shù)(也就是確定遷移先驗(yàn)數(shù)據(jù)中知識的“量”),然后,通過遷移舊數(shù)據(jù)集上的先驗(yàn)知識到目標(biāo)數(shù)據(jù)集上,我們對基于Markov網(wǎng)絡(luò)的檢索模型進(jìn)行修正,并在目標(biāo)數(shù)據(jù)集上進(jìn)行檢索。這樣就可以將以將以往被摒棄的先驗(yàn)數(shù)據(jù)通過有效的遷移學(xué)習(xí)利用到目標(biāo)

4、數(shù)據(jù)集的學(xué)習(xí)中,使檢索模型能夠快速學(xué)習(xí)并實(shí)現(xiàn)目標(biāo)文檔的高效檢索。多組實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的新方法在性能上要優(yōu)于BM25算法∞,2“2引,T一檢驗(yàn)n6’刪的結(jié)果也顯示模型的性能提高水平是顯著的。本文的工作和創(chuàng)新點(diǎn)在于:1.首次將遷移學(xué)習(xí)理論用于信息檢索領(lǐng)域,將知識的遷移和有指導(dǎo)的遷移學(xué)習(xí)等思想成功應(yīng)用在基于Markov網(wǎng)絡(luò)的信息檢索模型聆·氐峨刪中,從構(gòu)造的Markov網(wǎng)絡(luò)中成功地學(xué)習(xí)先驗(yàn)數(shù)據(jù)。2.本文通過遷移先驗(yàn)數(shù)據(jù)集的知識,并利用部分新數(shù)據(jù)集,來修正所提出的檢索模型,并最終實(shí)現(xiàn)基于Markov網(wǎng)絡(luò)的檢索模型能在新的數(shù)據(jù)集上的高效檢索。這樣可以大大減少重新建立一個(gè)適用于新數(shù)

5、據(jù)集的檢索模型所耗費(fèi)的時(shí)間。3.通過實(shí)驗(yàn)驗(yàn)證并分析了進(jìn)行遷移學(xué)習(xí)后的基于Markov網(wǎng)絡(luò)的信息檢索模型的性能,并將常用的BM25算法與經(jīng)過遷移學(xué)習(xí)的Markov網(wǎng)絡(luò)信息檢索模型的性能進(jìn)行比較。實(shí)驗(yàn)表明本文提出遷移基于Markov網(wǎng)絡(luò)模型的方法表現(xiàn)比較優(yōu)異,在很大程度上提高了檢索效率。關(guān)鍵詞:信息檢索;遷移學(xué)習(xí);Markov網(wǎng)絡(luò);Kullback.1eibler偏離度;UABSTRACTAlongwiththedevelopmentofintemet,alotofnewdataappearsinthewebeveryday.Itbringsagreatchallengeto

6、retrievalsystem.Informationisinchangingandourretrievalmodelisgottenbytrainingonamountofdatasetandneedmuchtimetorebuild.Toconstructaretrievalmodeltoadaptthenewdataquicklyandtoretrievalthenewdocumentsaccuratelyisbecominganimportantresearchtopic.Traditionalretrievalmodelisimpossibleinlearnin

7、gnewdata,retrievaleffectbecome10we/"whenthedocumentsincrease.Andretrievalmodelneedcostalotoftimetomodifyforadaptingnewdataset.Becauseinformationisintheexponentialgrowth,andthetrainingofretrievalmodelisdescribedasaprocessoftransferlearningprocess.Andthetrainingofoldd

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。