信息檢索中遷移markov網(wǎng)絡(luò)模型的研究

ID：33955592

大小：2.12 MB

頁數(shù)：54頁

時(shí)間：2019-03-02

資源描述：

《信息檢索中遷移markov網(wǎng)絡(luò)模型的研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、江西師范大學(xué)碩士學(xué)位論文信息檢索中遷移Markov網(wǎng)絡(luò)模型的研究姓名：余美華申請(qǐng)學(xué)位級(jí)別：碩士專業(yè)：計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師：王明文20090501摘要Web信息的快速增長(zhǎng)，給信息檢索系統(tǒng)帶來了巨大挑戰(zhàn)。傳統(tǒng)的檢索模型需要在一個(gè)相對(duì)固定的數(shù)據(jù)集上通過訓(xùn)練得到，不具備開放的學(xué)習(xí)功能，而Web上的信息是實(shí)時(shí)更新的，檢索模型由于無法對(duì)新的數(shù)據(jù)進(jìn)行學(xué)習(xí)，檢索性能必將隨著Web信息的更新而逐漸下降，現(xiàn)有的解決辦法之一是將新數(shù)據(jù)加入到原有的數(shù)據(jù)集中對(duì)模型重新進(jìn)行訓(xùn)練，由于模型對(duì)原有數(shù)據(jù)集學(xué)習(xí)所獲得的知識(shí)并沒有被保留，這勢(shì)必浪費(fèi)大量的時(shí)間進(jìn)行重復(fù)學(xué)習(xí)；另一種方法則是在新數(shù)據(jù)集上對(duì)模型進(jìn)行

2、訓(xùn)練，若新的數(shù)據(jù)集數(shù)據(jù)量不夠則會(huì)影響模型的學(xué)習(xí)效果。因而，如何使得檢索模型能較好學(xué)習(xí)新的數(shù)據(jù)并實(shí)現(xiàn)在目標(biāo)數(shù)據(jù)集上的準(zhǔn)確檢索乜^，邑111，成為了信息檢索模型研究的熱點(diǎn)之一。本文中我們將檢索模型在發(fā)生變化的數(shù)據(jù)上的訓(xùn)練可以看作是一個(gè)學(xué)習(xí)遷移的過程陋’1引，檢索模型在原有數(shù)據(jù)集上的訓(xùn)練勢(shì)必對(duì)其在新數(shù)據(jù)上的學(xué)習(xí)有所影響，即在原有數(shù)據(jù)集上建立模型中所獲得的知識(shí)對(duì)該模型在新數(shù)據(jù)上的訓(xùn)練有所幫助，從而減少由于數(shù)據(jù)發(fā)生改變而導(dǎo)致模型需要重新進(jìn)行學(xué)習(xí)所耗費(fèi)的時(shí)間。因此，為解決上述問題，我們結(jié)合遷移學(xué)習(xí)理論?和Markov網(wǎng)絡(luò)理論呻1，提出了一種新的方法，思想是遷移Markov網(wǎng)絡(luò)用于實(shí)現(xiàn)

3、檢索模型的學(xué)習(xí)，通過獲取先驗(yàn)知識(shí)，實(shí)現(xiàn)在目標(biāo)數(shù)據(jù)集上高效檢索目的。具體的思路是：首先建立一個(gè)數(shù)據(jù)集上的初始檢索模型，其次，衡量用于建模的先驗(yàn)數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集中數(shù)據(jù)分布的差異性，在本文中我們使用Kullback—Leiblerdivergence口，71(KL偏離度)的測(cè)量公式來度量這一分布的不同。且所得的KL偏離值也可用于確定檢索公式中的平衡參數(shù)(也就是確定遷移先驗(yàn)數(shù)據(jù)中知識(shí)的“量”)，然后，通過遷移舊數(shù)據(jù)集上的先驗(yàn)知識(shí)到目標(biāo)數(shù)據(jù)集上，我們對(duì)基于Markov網(wǎng)絡(luò)的檢索模型進(jìn)行修正，并在目標(biāo)數(shù)據(jù)集上進(jìn)行檢索。這樣就可以將以將以往被摒棄的先驗(yàn)數(shù)據(jù)通過有效的遷移學(xué)習(xí)利用到目標(biāo)

4、數(shù)據(jù)集的學(xué)習(xí)中，使檢索模型能夠快速學(xué)習(xí)并實(shí)現(xiàn)目標(biāo)文檔的高效檢索。多組實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的新方法在性能上要優(yōu)于BM25算法∞，2“2引，T一檢驗(yàn)n6’刪的結(jié)果也顯示模型的性能提高水平是顯著的。本文的工作和創(chuàng)新點(diǎn)在于：1．首次將遷移學(xué)習(xí)理論用于信息檢索領(lǐng)域，將知識(shí)的遷移和有指導(dǎo)的遷移學(xué)習(xí)等思想成功應(yīng)用在基于Markov網(wǎng)絡(luò)的信息檢索模型聆·氐峨刪中，從構(gòu)造的Markov網(wǎng)絡(luò)中成功地學(xué)習(xí)先驗(yàn)數(shù)據(jù)。2．本文通過遷移先驗(yàn)數(shù)據(jù)集的知識(shí)，并利用部分新數(shù)據(jù)集，來修正所提出的檢索模型，并最終實(shí)現(xiàn)基于Markov網(wǎng)絡(luò)的檢索模型能在新的數(shù)據(jù)集上的高效檢索。這樣可以大大減少重新建立一個(gè)適用于新數(shù)

5、據(jù)集的檢索模型所耗費(fèi)的時(shí)間。3．通過實(shí)驗(yàn)驗(yàn)證并分析了進(jìn)行遷移學(xué)習(xí)后的基于Markov網(wǎng)絡(luò)的信息檢索模型的性能，并將常用的BM25算法與經(jīng)過遷移學(xué)習(xí)的Markov網(wǎng)絡(luò)信息檢索模型的性能進(jìn)行比較。實(shí)驗(yàn)表明本文提出遷移基于Markov網(wǎng)絡(luò)模型的方法表現(xiàn)比較優(yōu)異，在很大程度上提高了檢索效率。關(guān)鍵詞：信息檢索；遷移學(xué)習(xí)；Markov網(wǎng)絡(luò)；Kullback．1eibler偏離度；UABSTRACTAlongwiththedevelopmentofintemet，alotofnewdataappearsinthewebeveryday．Itbringsagreatchallengeto

6、retrievalsystem．Informationisinchangingandourretrievalmodelisgottenbytrainingonamountofdatasetandneedmuchtimetorebuild．Toconstructaretrievalmodeltoadaptthenewdataquicklyandtoretrievalthenewdocumentsaccuratelyisbecominganimportantresearchtopic．Traditionalretrievalmodelisimpossibleinlearnin

7、gnewdata，retrievaleffectbecome10we／"whenthedocumentsincrease．Andretrievalmodelneedcostalotoftimetomodifyforadaptingnewdataset．Becauseinformationisintheexponentialgrowth，andthetrainingofretrievalmodelisdescribedasaprocessoftransferlearningprocess．Andthetrainingofoldd

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 54



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

信息檢索中遷移markov網(wǎng)絡(luò)模型的研究

信息檢索中遷移markov網(wǎng)絡(luò)模型的研究

相關(guān)文章

相關(guān)標(biāo)簽