基于lucene的web站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

基于lucene的web站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

ID:34550413

大小:254.91 KB

頁數(shù):4頁

時(shí)間:2019-03-07

基于lucene的web站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁
基于lucene的web站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁
基于lucene的web站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁
基于lucene的web站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁
資源描述:

《基于lucene的web站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、‘臼酬括粗,,,七卜七的匕基站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)曹強(qiáng)南京欠學(xué)中美文化研究中心圖書館南京摘要〕設(shè)計(jì)一個(gè)基于開源檢索工具包的站點(diǎn)站內(nèi)全文檢索系統(tǒng),詳述系統(tǒng)的設(shè)計(jì)思路與體系架構(gòu),并對中英文分詞和添加文檔索引等關(guān)健技術(shù)給出具體代碼和實(shí)現(xiàn)步驟最后對該系統(tǒng)進(jìn)行簡單的性能測試并與通用搜索引擎的檢索結(jié)果進(jìn)行查全率和查準(zhǔn)率方面的比較。關(guān)鍵詞〕全文檢索搜索引擎分類號(hào)〕死住一,川是叮,,一,‘〕,,,一一〔〕此外,對十少數(shù)未采用動(dòng)態(tài)頁面和數(shù)據(jù)庫技術(shù)的站點(diǎn)來引言說,其采用的文檔格式,如文本文檔、文檔、文檔、文檔,等等,井不像數(shù)據(jù)庫文檔那樣具備完整的杏詢,

2、對亡站點(diǎn)來說一個(gè)優(yōu)秀的站內(nèi)全文檢索系統(tǒng)是不功能。如何對這部分文檔實(shí)現(xiàn)檢索,也是一個(gè)難題。。可或缺的通常有兩種方法①使用通用的桌面搜索引擎如由上所述,如何構(gòu)建一個(gè)效率較高、針對性較強(qiáng)的通月等提供的站內(nèi)搜索功能來檢索站點(diǎn)內(nèi)部數(shù)據(jù)②開發(fā)自,。型亡站點(diǎn)全文檢索系統(tǒng)是一個(gè)巫待解決的問題筆者使。己專川的站內(nèi)全文檢索系統(tǒng)由于通用搜索引擎的索引更新用開放性的檢索平臺(tái)進(jìn)行二次開發(fā),設(shè)計(jì)廠個(gè)文食,一,較慢目針對性不強(qiáng)因而第種方法的檢索結(jié)果有可能不全檢索系統(tǒng),較為圓滿地解決了這個(gè)問題。還容易出現(xiàn)“壞鏈接”,查全率和查準(zhǔn)率都難以保證。所以對卜數(shù)據(jù)更新較快的站點(diǎn)來說,

3、一般采用的是第二種方法。開關(guān)于發(fā)自己專用的站內(nèi)全文檢索系統(tǒng)?!叭胀〈蠖鄶?shù)的站點(diǎn)都是采用后臺(tái)數(shù)據(jù)庫管理系統(tǒng)簡介訪臺(tái)”的模式構(gòu)建,因而對于站內(nèi)信息的檢索,最,活動(dòng)貞面是一個(gè)基于的全文信息檢索工終包它不是直接的辦法就是采用數(shù)據(jù)庫管理系統(tǒng)自帶的查詢命令如一個(gè)完整的搜索應(yīng)用程序,而是為應(yīng)用程序提供索引和搜索‘’。等來實(shí)現(xiàn)檢索功能但是由于這種模糊查詢功能。目前是公司的一個(gè)開源項(xiàng)日,也是日前,。片」卜旅卜索引而是需要實(shí)時(shí)地遍歷整個(gè)數(shù)據(jù)庫紀(jì)錄中的文’’最為流行的基于的開源全文檢索工其包‘,。本全段進(jìn)行匹配因此其效率十分低下當(dāng)數(shù)據(jù)量很大的時(shí)的檢索本質(zhì)上仍屬于索

4、弓檢索,即用空間來換取候,系統(tǒng)對查詢的響應(yīng)速度會(huì)越來越慢以至于讓人無法忍受。時(shí)間,對需要檢索的文件、字符流進(jìn)行全文索引,在檢索的,即吏采用數(shù)據(jù)庫索引但是,,目前數(shù)據(jù)庫的索引不是為文檔的時(shí)候?qū)λ饕M(jìn)行快速的檢索得到檢索位置這個(gè)位置記錄全文檢索而設(shè)計(jì)的,因此其效率仍舊不高。檢索詞出現(xiàn)的文件路徑或者某個(gè)關(guān)鍵詞。一一一一一,二頁碼收稿日期修回日期本文起且科本文責(zé)任編輯王傳清?1994-2008ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.

5、net圖書情報(bào)工作口叨潰爵口第卷第期年月選擇的原因目前大部分的數(shù)據(jù)庫引擎都是用樹結(jié)構(gòu)來維護(hù)索引,淺詢分析器文檔結(jié)構(gòu)索引的更新會(huì)導(dǎo)致大量的操作,在實(shí)現(xiàn)中對此稍微語言分析粉有所改進(jìn)不是維護(hù)一個(gè)索引文件,而是在擴(kuò)展索引時(shí)不斷創(chuàng),建新的索引文件然后定期地將這些新的小索引文件合并到訪問索引原先的大索引中針對不同的更新策略,批次的大小可以調(diào)整,這樣在不影響檢索的效率的前提下,提高了索引的效率。的索引結(jié)構(gòu)在概念上仍為傳統(tǒng)的倒排索引結(jié)構(gòu)‘。文件系統(tǒng)另外,相對于其它一些全文檢索系統(tǒng),還有以下優(yōu)點(diǎn)①可以進(jìn)行增量的索引,可以對于大量數(shù)據(jù)進(jìn)圖結(jié)構(gòu)和功能示意行批量索引

6、,并且接口設(shè)計(jì)用于優(yōu)化批量索引和小批量的增中的和的。。,量索引②沒有定義具體的數(shù)據(jù)源數(shù)據(jù)類型就是定義,提供了很多英文規(guī)范的實(shí)現(xiàn)樣本,也可以作為,索引文件格式中用到的全部數(shù)據(jù)類型由于他們都以。②按照被索引的文件格式來提供相應(yīng)的實(shí)現(xiàn)時(shí)的參考資料,,字節(jié)為基礎(chǔ)定義而來因此保證了與平臺(tái)無關(guān)這也是文本分析邏輯,這里是指除詞法分析之外的部分,比如索引文件格式平臺(tái)無關(guān)的主要原因③只提供一個(gè)通用文件,通常需要把其中的內(nèi)容按照所屬域分門別類加人索引,,的結(jié)構(gòu)對象來接受索引的輸入因此可以非常靈這就需要從。飛叩中定義的類繼,、、活的適應(yīng)各種應(yīng)用輸人的數(shù)據(jù)源可以是數(shù)

7、據(jù)庫文檔承,定義自己的類,然后就可以交給,文檔和比文檔等只要前端有合適的轉(zhuǎn)換器把數(shù)據(jù)模塊來寫人索引文件。完成這兩步之后,。源轉(zhuǎn)換成相應(yīng)結(jié)構(gòu)就可以進(jìn)行數(shù)據(jù)索引了全文檢索引擎就基本上完備了。綜上所述,具備開放源代碼、跨平臺(tái)、數(shù)據(jù)源來·的中英文分詞、,。源廣索引效率高等特性很適合于用來構(gòu)建全文檢索系統(tǒng)由于語言特性具備自然分隔符,英文分詞比較簡單。自帶的模塊,可以去除,而且原理與實(shí)現(xiàn)技術(shù)可以不區(qū)分大小寫,過濾掉各類標(biāo)點(diǎn)符號(hào)和語法詞,足夠滿足一般檢索需要。系統(tǒng)結(jié)構(gòu)分析對,于中文分詞新的版本也提供了。有兩個(gè)主要的服務(wù)索引和搜索索引和搜索的中口,不過它所采

8、用的是基于單字的一元文分詞接。,任務(wù)是相互獨(dú)立的索引和搜索服務(wù)都可用這樣開發(fā)人員。切分法這種分詞方法雖然簡單實(shí)用而且不會(huì)損失任何索引。、就可以對他們進(jìn)行擴(kuò)展來滿足自

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。