資源描述:
《基于lucene的web站點站內(nèi)全文檢索系統(tǒng)的設計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、‘臼酬括粗,,,七卜七的匕基站點站內(nèi)全文檢索系統(tǒng)的設計與實現(xiàn)曹強南京欠學中美文化研究中心圖書館南京摘要〕設計一個基于開源檢索工具包的站點站內(nèi)全文檢索系統(tǒng),詳述系統(tǒng)的設計思路與體系架構(gòu),并對中英文分詞和添加文檔索引等關(guān)健技術(shù)給出具體代碼和實現(xiàn)步驟最后對該系統(tǒng)進行簡單的性能測試并與通用搜索引擎的檢索結(jié)果進行查全率和查準率方面的比較。關(guān)鍵詞〕全文檢索搜索引擎分類號〕死住一,川是叮,,一,‘〕,,,一一〔〕此外,對十少數(shù)未采用動態(tài)頁面和數(shù)據(jù)庫技術(shù)的站點來引言說,其采用的文檔格式,如文本文檔、文檔、文檔、文檔,等等,井不像數(shù)據(jù)庫文檔那樣具備完整的杏詢,
2、對亡站點來說一個優(yōu)秀的站內(nèi)全文檢索系統(tǒng)是不功能。如何對這部分文檔實現(xiàn)檢索,也是一個難題。??苫蛉钡耐ǔS袃煞N方法①使用通用的桌面搜索引擎如由上所述,如何構(gòu)建一個效率較高、針對性較強的通月等提供的站內(nèi)搜索功能來檢索站點內(nèi)部數(shù)據(jù)②開發(fā)自,。型亡站點全文檢索系統(tǒng)是一個巫待解決的問題筆者使。己專川的站內(nèi)全文檢索系統(tǒng)由于通用搜索引擎的索引更新用開放性的檢索平臺進行二次開發(fā),設計廠個文食,一,較慢目針對性不強因而第種方法的檢索結(jié)果有可能不全檢索系統(tǒng),較為圓滿地解決了這個問題。還容易出現(xiàn)“壞鏈接”,查全率和查準率都難以保證。所以對卜數(shù)據(jù)更新較快的站點來說,
3、一般采用的是第二種方法。開關(guān)于發(fā)自己專用的站內(nèi)全文檢索系統(tǒng)?!叭胀〈蠖鄶?shù)的站點都是采用后臺數(shù)據(jù)庫管理系統(tǒng)簡介訪臺”的模式構(gòu)建,因而對于站內(nèi)信息的檢索,最,活動貞面是一個基于的全文信息檢索工終包它不是直接的辦法就是采用數(shù)據(jù)庫管理系統(tǒng)自帶的查詢命令如一個完整的搜索應用程序,而是為應用程序提供索引和搜索‘’。等來實現(xiàn)檢索功能但是由于這種模糊查詢功能。目前是公司的一個開源項日,也是日前,。片」卜旅卜索引而是需要實時地遍歷整個數(shù)據(jù)庫紀錄中的文’’最為流行的基于的開源全文檢索工其包‘,。本全段進行匹配因此其效率十分低下當數(shù)據(jù)量很大的時的檢索本質(zhì)上仍屬于索
4、弓檢索,即用空間來換取候,系統(tǒng)對查詢的響應速度會越來越慢以至于讓人無法忍受。時間,對需要檢索的文件、字符流進行全文索引,在檢索的,即吏采用數(shù)據(jù)庫索引但是,,目前數(shù)據(jù)庫的索引不是為文檔的時候?qū)λ饕M行快速的檢索得到檢索位置這個位置記錄全文檢索而設計的,因此其效率仍舊不高。檢索詞出現(xiàn)的文件路徑或者某個關(guān)鍵詞。一一一一一,二頁碼收稿日期修回日期本文起且科本文責任編輯王傳清?1994-2008ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.
5、net圖書情報工作口叨潰爵口第卷第期年月選擇的原因目前大部分的數(shù)據(jù)庫引擎都是用樹結(jié)構(gòu)來維護索引,淺詢分析器文檔結(jié)構(gòu)索引的更新會導致大量的操作,在實現(xiàn)中對此稍微語言分析粉有所改進不是維護一個索引文件,而是在擴展索引時不斷創(chuàng),建新的索引文件然后定期地將這些新的小索引文件合并到訪問索引原先的大索引中針對不同的更新策略,批次的大小可以調(diào)整,這樣在不影響檢索的效率的前提下,提高了索引的效率。的索引結(jié)構(gòu)在概念上仍為傳統(tǒng)的倒排索引結(jié)構(gòu)‘。文件系統(tǒng)另外,相對于其它一些全文檢索系統(tǒng),還有以下優(yōu)點①可以進行增量的索引,可以對于大量數(shù)據(jù)進圖結(jié)構(gòu)和功能示意行批量索引
6、,并且接口設計用于優(yōu)化批量索引和小批量的增中的和的。。,量索引②沒有定義具體的數(shù)據(jù)源數(shù)據(jù)類型就是定義,提供了很多英文規(guī)范的實現(xiàn)樣本,也可以作為,索引文件格式中用到的全部數(shù)據(jù)類型由于他們都以。②按照被索引的文件格式來提供相應的實現(xiàn)時的參考資料,,字節(jié)為基礎定義而來因此保證了與平臺無關(guān)這也是文本分析邏輯,這里是指除詞法分析之外的部分,比如索引文件格式平臺無關(guān)的主要原因③只提供一個通用文件,通常需要把其中的內(nèi)容按照所屬域分門別類加人索引,,的結(jié)構(gòu)對象來接受索引的輸入因此可以非常靈這就需要從。飛叩中定義的類繼,、、活的適應各種應用輸人的數(shù)據(jù)源可以是數(shù)
7、據(jù)庫文檔承,定義自己的類,然后就可以交給,文檔和比文檔等只要前端有合適的轉(zhuǎn)換器把數(shù)據(jù)模塊來寫人索引文件。完成這兩步之后,。源轉(zhuǎn)換成相應結(jié)構(gòu)就可以進行數(shù)據(jù)索引了全文檢索引擎就基本上完備了。綜上所述,具備開放源代碼、跨平臺、數(shù)據(jù)源來·的中英文分詞、,。源廣索引效率高等特性很適合于用來構(gòu)建全文檢索系統(tǒng)由于語言特性具備自然分隔符,英文分詞比較簡單。自帶的模塊,可以去除,而且原理與實現(xiàn)技術(shù)可以不區(qū)分大小寫,過濾掉各類標點符號和語法詞,足夠滿足一般檢索需要。系統(tǒng)結(jié)構(gòu)分析對,于中文分詞新的版本也提供了。有兩個主要的服務索引和搜索索引和搜索的中口,不過它所采
8、用的是基于單字的一元文分詞接。,任務是相互獨立的索引和搜索服務都可用這樣開發(fā)人員。切分法這種分詞方法雖然簡單實用而且不會損失任何索引。、就可以對他們進行擴展來滿足自