資源描述:
《全文檢索系統(tǒng)論文》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、摘要
中文全文檢索系統(tǒng)是信息產(chǎn)業(yè)中發(fā)展較快的一個領(lǐng)域,而一個中文檢索系統(tǒng)的核心就是索引器,本文介紹了索引器構(gòu)造的不同算法模型,對相關(guān)的技術(shù)進(jìn)行了比較,分析了各自的優(yōu)缺點和實現(xiàn)難點,提出了一種中文全文檢索中索引實現(xiàn)的數(shù)據(jù)結(jié)構(gòu)和新型的算法模型。本文首先綜述了中文全文檢索中索引構(gòu)造的相關(guān)技術(shù),主要包括索引文件數(shù)據(jù)結(jié)構(gòu)、索引單位選取和索引壓縮算法。在上述綜述的基礎(chǔ)上,本文采用了基于單字的倒排表文件格式和可變字節(jié)編碼壓縮技術(shù)實現(xiàn)了整個索引系統(tǒng)。該系統(tǒng)包括三方面的功能分別是:文本預(yù)處理、索引創(chuàng)建和索引更新。
在文本預(yù)處理部分實現(xiàn)了中文、外文和特殊字符的分離,同時實現(xiàn)了停止詞(stopword)的刪除。在索
2、引創(chuàng)建部分本文首先給出了一種基于傳統(tǒng)倒排表的索引創(chuàng)建算法——合并排序式索引創(chuàng)建算法,該算法需要源文本10倍大小的臨時空間。為了解決合并排序式索引創(chuàng)建算法臨時空間過大的問題,本文提出了一種新的索引創(chuàng)建方案,該方案采用分級的倒排表索引組織結(jié)構(gòu)和鏈?zhǔn)巾樞蚧旌洗鎯Φ姆绞健K粌H不需要額外的臨時空間,而且還提高了索引創(chuàng)建的效率。在索引創(chuàng)建的過程中本系統(tǒng)采用了可變字節(jié)編碼壓縮技術(shù)對索引進(jìn)行壓縮,實驗表明該壓縮算法將索引文件大小減少了20-30%。
在索引更新部分本文提出了三種順序存儲方式下準(zhǔn)動態(tài)的索引更新策略,一種鏈?zhǔn)酱鎯Ω袷较滤饕齽討B(tài)更新的算法。該系統(tǒng)采用的鏈?zhǔn)酱鎯Y(jié)構(gòu)下的索引更新算法復(fù)雜度達(dá)到了O(n
3、)。關(guān)鍵詞:中文全文檢索;索引器;倒排表;索引壓縮
ABSTRACT
ChineseFull-TextRetrievalSystemisoneofthefastdevelopingfieldsininformationindustry,andthecoreoftheChineseretrievalsystemistheIndexdevice.Thepaperanalyzesseveraldifferentalgorithmsofconstructingtheindexdevice,andcomparestherelatedtechniques,andthengivestheadvantages
4、anddisadvantagesofeachandthedifficultyofachieving.FniallythispapergivesthedatastructureandanewalgorithmmodelofTheindexinfull-textretrievalsystem..ThispaperfirstsummarizestherelatedtechniquesofindexconstructinginChineseFull-TextRetrieval,mainlyincludesdatastructureofdocumentindexing,indexcompressiona
5、lgorithms.Thefurtherway,thispaperimplementstheentireindexsystemusingthesetechniques,suchascharacterbased-onInvertedlistsandthevariablebytecodingcompressionalgorithm.Thissystemincludesthreefunctionsrespectivelyis:Textpretreatment,indexfoundationandindexupdating.Inthepartoftextpretreatment,hasrealized
6、separationofChinese,foreignandtheSpecialcharacter,andhasrealizeddeletionof"stopword".Inthepartofindexfoundation,producesonekindindexfoundationalgorithmbasedontraditionalInvertedLists——Sort-Mergemethod.Thisalgorithmneedsthe10timeofsizesfortemporaryspacesthanthesourcetext.Inordertosolvetheproblemofove
7、rsizedtemporaryspaceinabovealgorithms,thispaperproposedanewindexfoundationplan.TheindexorganizationalstructureofthisplanisimprovedInvertedlists,anditsmemorywayismixofchainandorder.Itnotonlydoesnotneed