基于lucene相似句子檢索系統(tǒng)論文

基于lucene相似句子檢索系統(tǒng)論文

ID:34254711

大小:366.70 KB

頁數(shù):40頁

時間:2019-03-04

基于lucene相似句子檢索系統(tǒng)論文_第1頁
基于lucene相似句子檢索系統(tǒng)論文_第2頁
基于lucene相似句子檢索系統(tǒng)論文_第3頁
基于lucene相似句子檢索系統(tǒng)論文_第4頁
基于lucene相似句子檢索系統(tǒng)論文_第5頁
資源描述:

《基于lucene相似句子檢索系統(tǒng)論文》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫

1、院系專業(yè)班級學(xué)號姓名指導(dǎo)教師負(fù)責(zé)教師基于lucene相似句子檢索系統(tǒng)北方軟件學(xué)院計算機(jī)科學(xué)與技術(shù)(軟件工程)5233108200502331277劉斌劉豹劉豹沈陽航空工業(yè)學(xué)院2007年6月摘要相似句子檢索系統(tǒng)旨在文本語料庫中提取出與查詢的句子具有一定的相似度的句子并呈現(xiàn)出來。木文首先介紹了相似句子檢索在人機(jī)對話、機(jī)器翻譯、信息檢索等自然語言處理相關(guān)的各個領(lǐng)域都占有很重要的地位。本文闡述了本設(shè)計所釆用的算法、技術(shù)和工具。本設(shè)計通過先將文本格式的語料庫文件導(dǎo)入sql數(shù)據(jù)庫中,然后利用lucene對數(shù)據(jù)庫

2、建立索引文件。在這兩步之上再利用基于字典進(jìn)行止向最大匹配的分詞算法對需檢索的句子進(jìn)分詞,再利用lucene的檢索功能查找出相似的句子,再利用dice系數(shù)法和基于編輯距離算法計算出每個句子的相似度,并且對結(jié)果利用二分插入排序算法進(jìn)行排序,最后在界面上顯示結(jié)果。本設(shè)計還實現(xiàn)了保存每個用戶信息,并且記錄每一個用戶所查詢過的信息,同時對這些歷史記錄提供管理功能。本設(shè)計還實現(xiàn)了譯文查看功能。關(guān)鍵詞:Lucene;分詞;Dice系數(shù);編輯距離AbstractSimilarSenteneeRetrievalSys

3、temaimsatsearchingandprosentingoutsentenceswhichconformwithyoursearchfromthetextcorpus.ThispaperfirstintroducesSimilarSentenceRetrievalplayanimportantroleinmanyfieldofnaturallanguageprocessing,suchasman-machineconversation,machinetramslation,informatio

4、nretrieval.Thispaperexpatiatesalgorithm,techniqueandtoolsthatthedesignuses.Firstly,thedesignimportthetextformattingsentencesdocumenttosqldatabase.Thenmakeuseofthelucenctocstablishtheindexdocumenttothedatabase.Afterthetwostep,usethebiggestmatchingcalcul

5、atemethodbasedondictionarytobreakupthesentencesofneedsearching,Thenmakeuseoftheluceneretrievalfunctiontofindoutthesimilarsentences,thenusethediceCoefficientmethodandeditdistancecalculatemethodtocomputethesimilardegreeofeachsentenceandusethetwoBi-insert

6、sortalgorithmtosorttheresult.Finallyshowtheresultontheinterface.Thisdesignalsorealizesconservancyeachcustomersinformstion,recordsthesearchinginformationofeachcustomer,andofferthemanagementfunctiontothesehistoriesatthesametime.Itevenrealizesthefunctiont

7、hatwecanlookintothetranslation.Keywords:Lucene;WordSegmentation;DiceCoefficient;EditDistance目錄1引言11」和似句子檢索背景及義意11.2相似句子檢索內(nèi)容與目的11.3本設(shè)計所做的主要貢獻(xiàn)12相似句子檢索系統(tǒng)概述32.1相近課題研究概述32.2句子的相似度概述32.3相似句子檢索系統(tǒng)實現(xiàn)FI標(biāo)32.4Lucene簡介43關(guān)鍵技術(shù)闡述53.1分詞53.1.1中文分詞53.1.2英文分詞63.2建立索引、檢索、分

8、析器63.2.1建立索引63.2.2檢索73.2.3查詢分析器83.3相似度計算93.3」編輯距離93.3.2dice系數(shù)113.3.3編輯距離與dice系數(shù)比較113.4排序114相似句子檢索系統(tǒng)總體設(shè)計134」系統(tǒng)需求分析134.1.1處理數(shù)據(jù)類型134.1.2實現(xiàn)功能134.1.3生成結(jié)果標(biāo)準(zhǔn)144.2系統(tǒng)流程分析144.3總體設(shè)計154.3.1系統(tǒng)開發(fā)環(huán)境及所需資源154.3.2系統(tǒng)功能模塊設(shè)計155相似句子檢索系統(tǒng)詳細(xì)設(shè)計175.1登錄175.2英漢語料庫更

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。