中文問答系統(tǒng)中的信息檢索模型的研究

中文問答系統(tǒng)中的信息檢索模型的研究

ID:35184782

大?。?.42 MB

頁數(shù):47頁

時間:2019-03-21

中文問答系統(tǒng)中的信息檢索模型的研究_第1頁
中文問答系統(tǒng)中的信息檢索模型的研究_第2頁
中文問答系統(tǒng)中的信息檢索模型的研究_第3頁
中文問答系統(tǒng)中的信息檢索模型的研究_第4頁
中文問答系統(tǒng)中的信息檢索模型的研究_第5頁
資源描述:

《中文問答系統(tǒng)中的信息檢索模型的研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。

1、重慶大學碩士學位論文中文問答系統(tǒng)中的信息檢索模型的研究姓名:劉春泳申請學位級別:碩士專業(yè):計算機系統(tǒng)結構指導教師:張玉芳20070420重慶大學碩士學位論文中文摘要摘要問答技術是自然語言處理領域中一個非常熱門的研究方向,它綜合運用了各種自然語言處理技術。目前,國內(nèi)外有很多的科研機構參與了英文問答技術的研究,甚至己經(jīng)有相對成熟的英文問答系統(tǒng),但是參與中文自動問答技術研究的科研機構并不是很多,而且基本沒有成型的中文問答系統(tǒng)。本文正是對中文問答技術研究的一個探索?;谧匀徽Z言處理的中文問答系統(tǒng)包括五個主要組成部分:問題理解、信息檢索、信息處理、答案抽取、FAQ模塊五個子系統(tǒng)。信息檢索模塊是自動

2、問答系統(tǒng)中最重要的模塊之一,檢索的結果對后面的處理,以至找到問題的正確答案都有很大的影響,同時它也是智能咨詢系統(tǒng)、機器對話等研究的重要方面。本文充分結合了漢語語言的特點以及計算語言學的技術,對問答系統(tǒng)中信息檢索模塊進行了深入分析,指出了在實際的使用問答系統(tǒng)的時候,用戶的回答質(zhì)量參差不齊。我們不但要盡量檢索相似度高的文檔,而且還希望檢索出來的文檔的質(zhì)量盡可能的好,而傳統(tǒng)的信息檢索中常用的四種數(shù)學模型:布爾模型、模糊邏輯模型、向量模型和概率模型以及基于語言模型的信息檢索模型在計算相似度的時候都沒有考慮到問題的質(zhì)量。本文通過最大熵方法用困惑度、序列模型、詞的搭配作為特征來評估文檔的質(zhì)量,最后利

3、用翻譯模型把問題質(zhì)量成功的集成到檢索模型中。最后,我們從社區(qū)問答系統(tǒng)中抽取問答對作為語料進行測試,試驗結果表明引入文檔質(zhì)量到檢索模型中比傳統(tǒng)的檢索模型能取得更好的試驗結果。關鍵詞:問答系統(tǒng),信息檢索,文檔質(zhì)量,語言模型,最大熵重慶大學碩士學位論文英文摘要AbstractQAtechnologyisaveryhotresearchdirectioninthefieldofnaturallanguageprocessing(NLP).ItcombinesalargevarietyofNLPtechnologles.Presently,manyresearchinstituteshavebee

4、ninvestigatingEnglishQAtechnologies.SomematureEnglishQAsystemshavebeenwidelyrecognized.ButfewinstitutesaredoingresearchonChineseQAsystems.NoChineseQAsystemshavebeenproposeduptonow.Inthispaper,wetrytoinvestigatesometechnologiesforChineseQAsystems.NLP-bascdQAsystemhasfivemainparts:QuestionAnalysis,

5、InformationRetrieval,InformationProcessing,AnswerExtraction,andFrequentlyAskedQuestionsModule.InformationRetrievalisoneofthemostimportantmodulesoftheNLP-basedQAsystem.TheresultofInformationRetrievalhasagreateffectonfollowingprocessingwork,evenonfordingthecorrectanswer,Itisalsothemostimportantrese

6、archaspectonIntelligentconsultingSystem,Man-machinedialogue,andsoon.inthispaper,weresearchdeeplyonInformationRetrieval,consideringthecharacterofChineseandtechniqueofcomputationallinguistics.IntheactualuseoftheQAsystem,thequalityofanswerisuneven.Traditionalinformationretrievalusethefourmathematica

7、lmodels:booleanmodel,fuzzy109icmodel,vector-basedmodel,andprobabilitymodel,butnoneofthemtakeintoaccountthequalityoftheanswer.Sowenseperplexity,sequentialpattern,andlexiealcollocationtopredictthequalityofdocumentthrough

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。