全文檢索系統(tǒng)設(shè)計整體方案

全文檢索系統(tǒng)設(shè)計整體方案

ID:31803916

大小:1.94 MB

頁數(shù):25頁

時間:2019-01-18

全文檢索系統(tǒng)設(shè)計整體方案_第1頁
全文檢索系統(tǒng)設(shè)計整體方案_第2頁
全文檢索系統(tǒng)設(shè)計整體方案_第3頁
全文檢索系統(tǒng)設(shè)計整體方案_第4頁
全文檢索系統(tǒng)設(shè)計整體方案_第5頁
資源描述:

《全文檢索系統(tǒng)設(shè)計整體方案》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、資料1全文檢索系統(tǒng)方案1.1全文檢索需求1)系統(tǒng)提供模糊檢索、分類搜索、高級復(fù)合搜索、全文檢索、圖片內(nèi)容檢索、跨庫檢索等多種檢索途徑;2)支持字索引和詞索引;3)檢索條件具有完整的關(guān)鍵詞布爾邏輯運算AND、OR、NOT能力,支持復(fù)合式布爾邏輯運算查詢,并且可以配合多組左括號"("與右括號")"作關(guān)鍵詞查詢優(yōu)先級的設(shè)置;4)提供用戶多次遞進查詢的功能,用戶可根據(jù)上一次查詢關(guān)鍵詞得到的檢索結(jié)果集,增加查詢關(guān)鍵詞與縮小搜索日期范圍,而得到更準確的查詢結(jié)果集;5)能夠支持對以上文件中的中文(簡體/繁體)、英文、日語、韓語內(nèi)容實現(xiàn)關(guān)鍵字檢索;6)支持對Word、TXT、

2、PDF等多種主流文檔格式全文檢索,并提供開發(fā)接口以支持特殊文檔格式的全文檢索;7)在數(shù)據(jù)源數(shù)據(jù)發(fā)生更新時,能在索引庫中反映出來,保證搜索的信息為最新,即支持增量索引機制;8)用戶可自行設(shè)定時間,讓系統(tǒng)自動定時進行更新索引;9)對于百萬級記錄數(shù)的搜索以及結(jié)合模糊搜索等查詢方式,搜索時間不得超過10秒;10)提供跨數(shù)據(jù)源、數(shù)據(jù)格式的搜索;11)同過相關(guān)性搜索,能夠把和搜索條件相關(guān)聯(lián)的信息搜索出來;12)不但能夠?qū)D片的描述信息進行搜索,還能對圖片內(nèi)容的檢索;13)提供COM與SOAP的搜索接口(Interface)可讓其它應(yīng)用程序或查詢網(wǎng)頁能夠提供用戶查詢?nèi)肟诤筒?/p>

3、詢結(jié)果的呈現(xiàn),用戶可通過應(yīng)用程序或瀏覽器訪問全文檢索服務(wù)器,提交查詢條件,可在瀏覽器中查看檢索結(jié)果;14)查詢結(jié)果集中應(yīng)包含結(jié)果集總數(shù)、命中的結(jié)果文件的完整路徑,以及符合關(guān)鍵詞出現(xiàn)的內(nèi)容片斷;15)在搜索結(jié)果集中,關(guān)鍵詞應(yīng)被標識出來,用特殊的字體及顏色和其他文字進行區(qū)別,查詢者可在查詢結(jié)果片斷中一目了然的看到關(guān)鍵詞出現(xiàn)的位置;16)查詢結(jié)果可按照關(guān)鍵詞命中次數(shù),命中結(jié)果文件的修改時間,大小等條件進行排序;17)可提供用戶對檢索命中結(jié)果文件在索引庫中進行標記,從而再次檢索時,不在標記過的文件中進行查詢;.資料1.1全文檢索系統(tǒng)總體方案系統(tǒng)將采用以下全文檢索流程。

4、針對企業(yè)內(nèi)部的信息,包括文件服務(wù)器上的文件、網(wǎng)站網(wǎng)頁、ERP等系統(tǒng)存放信息的數(shù)據(jù)庫信息、辦公應(yīng)用中的公文檔案文檔已經(jīng)內(nèi)容管理系統(tǒng)中流轉(zhuǎn)的內(nèi)容,本系統(tǒng)提供了兩種數(shù)據(jù)適配器來提取其中的正文內(nèi)容和屬性內(nèi)容,形成一個相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層;本系統(tǒng)的索引引擎(Indexer)對結(jié)構(gòu)化的數(shù)據(jù)虛擬層進行中文切分詞、文件特征分析和逐步索引,以及其它索引算法,生成索引數(shù)據(jù)庫;使用者(user)在搜索頁面中輸入查詢字串等搜索條件并提交給本系統(tǒng)后,本系統(tǒng)的全文檢索查詢引擎(Searcher)會在索引庫中進行搜索,并將符合搜索條件的搜索結(jié)果返回給使用者;使用者(user)可于查詢結(jié)果

5、頁面,進一步鏈接到信息原文查看詳細內(nèi)容。對于系統(tǒng)管理,管理員可通過相應(yīng)web方式的管理程序來管理整個系統(tǒng)運行環(huán)境及設(shè)置文件;并通過索引引擎(Indexer.exe)實時或定時創(chuàng)建索引,更新索引數(shù)據(jù)庫的內(nèi)容,使檢索信息維持在最新狀態(tài)。.資料1.1全文檢索系統(tǒng)帶來的效益ü高效率的整合搜索,大幅減少組織成員在取得信息時花費的時間!本系統(tǒng)和其它搜索系統(tǒng)只針對特定信息源搜索不同,它能對企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索,具備強大的信息整合及快速回應(yīng)能力,讓企業(yè)成員以單一搜索頁面、簡易的操作方式,即可在最短時間內(nèi),完整、準確、及時地掌握企業(yè)內(nèi)外所有信息,不必再耗費大量時

6、間的找尋信息!ü信息過量不會造成企業(yè)成員的信息焦慮!通過本系統(tǒng)強大的索引/搜索能力,大量的信息也可在瞬間過濾出符合使用者條件的信息,不必擔心迷失在漫漫的信息洪流之中!ü非結(jié)構(gòu)/非組織的信息,不再是知識管理的盲點!文件/檔案以及非經(jīng)過分類管理的信息,因為附加信息稀少,往往成為知識利用上難以判斷、分析的信息。本系統(tǒng)直接針對內(nèi)容全文分析、關(guān)聯(lián),使這類信息同樣可讓使用者以檢索方式,快速篩選利用!ü整合容易,使用簡易,導入迅速,易于接受!套裝化、模塊化的設(shè)計及靈活的整合能力,能在企業(yè)內(nèi)迅速的安裝設(shè)置;操作方式簡單,企業(yè)成員易于接受,導入方便。以最經(jīng)濟的時間、人力及費用成

7、本為企業(yè)創(chuàng)建信息流通、充分分享的知識環(huán)境。1.2全文檢索系統(tǒng)平臺架構(gòu)本系統(tǒng)基于組件化和松散耦合架構(gòu)和設(shè)計,系統(tǒng)平臺架構(gòu)示意圖如下:.資料整個系統(tǒng)主要分為信息整合、信息萃取和服務(wù)、應(yīng)用整合三個部分。ü信息整合此部分主要作用是將企業(yè)內(nèi)部存儲于不同應(yīng)用系統(tǒng)中的結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息、非結(jié)構(gòu)化信息通過本系統(tǒng)提供的兩種數(shù)據(jù)適配器進行信息提取,形成一個相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層,以備后期信息萃取和服務(wù)。ü信息萃取和服務(wù)在信息整合層形成的相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層基礎(chǔ)上,本系統(tǒng)將對其中的每筆記錄進行中文切分詞、索引、文件特征分析、自動分類等各種演算算法處理,形成可以提供搜索服務(wù)的

8、索引庫。用戶利用本系統(tǒng)的搜索引擎處理提

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。