全文檢索系統(tǒng)論文

全文檢索系統(tǒng)論文

ID:18970251

大小:530.50 KB

頁數(shù):38頁

時間:2018-09-27

全文檢索系統(tǒng)論文_第1頁
全文檢索系統(tǒng)論文_第2頁
全文檢索系統(tǒng)論文_第3頁
全文檢索系統(tǒng)論文_第4頁
全文檢索系統(tǒng)論文_第5頁
資源描述:

《全文檢索系統(tǒng)論文》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、摘要 中文全文檢索系統(tǒng)是信息產(chǎn)業(yè)中發(fā)展較快的一個領(lǐng)域,而一個中文檢索系統(tǒng)的核心就是索引器,本文介紹了索引器構(gòu)造的不同算法模型,對相關(guān)的技術(shù)進(jìn)行了比較,分析了各自的優(yōu)缺點和實現(xiàn)難點,提出了一種中文全文檢索中索引實現(xiàn)的數(shù)據(jù)結(jié)構(gòu)和新型的算法模型。本文首先綜述了中文全文檢索中索引構(gòu)造的相關(guān)技術(shù),主要包括索引文件數(shù)據(jù)結(jié)構(gòu)、索引單位選取和索引壓縮算法。在上述綜述的基礎(chǔ)上,本文采用了基于單字的倒排表文件格式和可變字節(jié)編碼壓縮技術(shù)實現(xiàn)了整個索引系統(tǒng)。該系統(tǒng)包括三方面的功能分別是:文本預(yù)處理、索引創(chuàng)建和索引更新。 在文本預(yù)處理部分實現(xiàn)了中文、外文和特殊字符的分離,同時實現(xiàn)了停止詞(stopword)的刪除。在索

2、引創(chuàng)建部分本文首先給出了一種基于傳統(tǒng)倒排表的索引創(chuàng)建算法——合并排序式索引創(chuàng)建算法,該算法需要源文本10倍大小的臨時空間。為了解決合并排序式索引創(chuàng)建算法臨時空間過大的問題,本文提出了一種新的索引創(chuàng)建方案,該方案采用分級的倒排表索引組織結(jié)構(gòu)和鏈?zhǔn)巾樞蚧旌洗鎯Φ姆绞健K粌H不需要額外的臨時空間,而且還提高了索引創(chuàng)建的效率。在索引創(chuàng)建的過程中本系統(tǒng)采用了可變字節(jié)編碼壓縮技術(shù)對索引進(jìn)行壓縮,實驗表明該壓縮算法將索引文件大小減少了20-30%。 在索引更新部分本文提出了三種順序存儲方式下準(zhǔn)動態(tài)的索引更新策略,一種鏈?zhǔn)酱鎯Ω袷较滤饕齽討B(tài)更新的算法。該系統(tǒng)采用的鏈?zhǔn)酱鎯Y(jié)構(gòu)下的索引更新算法復(fù)雜度達(dá)到了O(n

3、)。關(guān)鍵詞:中文全文檢索;索引器;倒排表;索引壓縮 ABSTRACT ChineseFull-TextRetrievalSystemisoneofthefastdevelopingfieldsininformationindustry,andthecoreoftheChineseretrievalsystemistheIndexdevice.Thepaperanalyzesseveraldifferentalgorithmsofconstructingtheindexdevice,andcomparestherelatedtechniques,andthengivestheadvantages

4、anddisadvantagesofeachandthedifficultyofachieving.FniallythispapergivesthedatastructureandanewalgorithmmodelofTheindexinfull-textretrievalsystem..ThispaperfirstsummarizestherelatedtechniquesofindexconstructinginChineseFull-TextRetrieval,mainlyincludesdatastructureofdocumentindexing,indexcompressiona

5、lgorithms.Thefurtherway,thispaperimplementstheentireindexsystemusingthesetechniques,suchascharacterbased-onInvertedlistsandthevariablebytecodingcompressionalgorithm.Thissystemincludesthreefunctionsrespectivelyis:Textpretreatment,indexfoundationandindexupdating.Inthepartoftextpretreatment,hasrealized

6、separationofChinese,foreignandtheSpecialcharacter,andhasrealizeddeletionof"stopword".Inthepartofindexfoundation,producesonekindindexfoundationalgorithmbasedontraditionalInvertedLists——Sort-Mergemethod.Thisalgorithmneedsthe10timeofsizesfortemporaryspacesthanthesourcetext.Inordertosolvetheproblemofove

7、rsizedtemporaryspaceinabovealgorithms,thispaperproposedanewindexfoundationplan.TheindexorganizationalstructureofthisplanisimprovedInvertedlists,anditsmemorywayismixofchainandorder.Itnotonlydoesnotneed

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。