資源描述:
《全文檢索系統(tǒng)整體方案說明》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、專業(yè)資料整理分享1全文檢索系統(tǒng)方案1.1全文檢索需求1)系統(tǒng)提供模糊檢索、分類搜索、高級(jí)復(fù)合搜索、全文檢索、圖片內(nèi)容檢索、跨庫檢索等多種檢索途徑;2)支持字索引和詞索引;3)檢索條件具有完整的關(guān)鍵詞布爾邏輯運(yùn)算AND、OR、NOT能力,支持復(fù)合式布爾邏輯運(yùn)算查詢,并且可以配合多組左括號(hào)"("與右括號(hào)")"作關(guān)鍵詞查詢優(yōu)先級(jí)的設(shè)置;4)提供用戶多次遞進(jìn)查詢的功能,用戶可根據(jù)上一次查詢關(guān)鍵詞得到的檢索結(jié)果集,增加查詢關(guān)鍵詞與縮小搜索日期范圍,而得到更準(zhǔn)確的查詢結(jié)果集;5)能夠支持對以上文件中的中文(簡體/繁體)、英文、日語、韓語內(nèi)容實(shí)現(xiàn)關(guān)鍵字檢索;6)支持對Word、TXT、PDF
2、等多種主流文檔格式全文檢索,并提供開發(fā)接口以支持特殊文檔格式的全文檢索;7)在數(shù)據(jù)源數(shù)據(jù)發(fā)生更新時(shí),能在索引庫中反映出來,保證搜索的信息為最新,即支持增量索引機(jī)制;8)用戶可自行設(shè)定時(shí)間,讓系統(tǒng)自動(dòng)定時(shí)進(jìn)行更新索引;9)對于百萬級(jí)記錄數(shù)的搜索以及結(jié)合模糊搜索等查詢方式,搜索時(shí)間不得超過10秒;10)提供跨數(shù)據(jù)源、數(shù)據(jù)格式的搜索;11)同過相關(guān)性搜索,能夠把和搜索條件相關(guān)聯(lián)的信息搜索出來;12)不但能夠?qū)D片的描述信息進(jìn)行搜索,還能對圖片內(nèi)容的檢索;13)提供COM與SOAP的搜索接口(Interface)可讓其它應(yīng)用程序或查詢網(wǎng)頁能夠提供用戶查詢?nèi)肟诤筒樵兘Y(jié)果的呈現(xiàn),用戶可通過
3、應(yīng)用程序或?yàn)g覽器訪問全文檢索服務(wù)器,提交查詢條件,可在瀏覽器中查看檢索結(jié)果;14)查詢結(jié)果集中應(yīng)包含結(jié)果集總數(shù)、命中的結(jié)果文件的完整路徑,以及符合關(guān)鍵詞出現(xiàn)的內(nèi)容片斷;15)在搜索結(jié)果集中,關(guān)鍵詞應(yīng)被標(biāo)識(shí)出來,用特殊的字體及顏色和其他文字進(jìn)行區(qū)別,查詢者可在查詢結(jié)果片斷中一目了然的看到關(guān)鍵詞出現(xiàn)的位置;16)查詢結(jié)果可按照關(guān)鍵詞命中次數(shù),命中結(jié)果文件的修改時(shí)間,大小等條件進(jìn)行排序;17)可提供用戶對檢索命中結(jié)果文件在索引庫中進(jìn)行標(biāo)記,從而再次檢索時(shí),不在標(biāo)記過的文件中進(jìn)行查詢;完美WORD格式編輯專業(yè)資料整理分享1.1全文檢索系統(tǒng)總體方案系統(tǒng)將采用以下全文檢索流程。針對企業(yè)內(nèi)部
4、的信息,包括文件服務(wù)器上的文件、網(wǎng)站網(wǎng)頁、ERP等系統(tǒng)存放信息的數(shù)據(jù)庫信息、辦公應(yīng)用中的公文檔案文檔已經(jīng)內(nèi)容管理系統(tǒng)中流轉(zhuǎn)的內(nèi)容,本系統(tǒng)提供了兩種數(shù)據(jù)適配器來提取其中的正文內(nèi)容和屬性內(nèi)容,形成一個(gè)相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層;本系統(tǒng)的索引引擎(Indexer)對結(jié)構(gòu)化的數(shù)據(jù)虛擬層進(jìn)行中文切分詞、文件特征分析和逐步索引,以及其它索引算法,生成索引數(shù)據(jù)庫;使用者(user)在搜索頁面中輸入查詢字串等搜索條件并提交給本系統(tǒng)后,本系統(tǒng)的全文檢索查詢引擎(Searcher)會(huì)在索引庫中進(jìn)行搜索,并將符合搜索條件的搜索結(jié)果返回給使用者;使用者(user)可于查詢結(jié)果頁面,進(jìn)一步鏈接到信息原文查看
5、詳細(xì)內(nèi)容。對于系統(tǒng)管理,管理員可通過相應(yīng)web方式的管理程序來管理整個(gè)系統(tǒng)運(yùn)行環(huán)境及設(shè)置文件;并通過索引引擎(Indexer.exe)實(shí)時(shí)或定時(shí)創(chuàng)建索引,更新索引數(shù)據(jù)庫的內(nèi)容,使檢索信息維持在最新狀態(tài)。完美WORD格式編輯專業(yè)資料整理分享1.1全文檢索系統(tǒng)帶來的效益ü高效率的整合搜索,大幅減少組織成員在取得信息時(shí)花費(fèi)的時(shí)間!本系統(tǒng)和其它搜索系統(tǒng)只針對特定信息源搜索不同,它能對企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索,具備強(qiáng)大的信息整合及快速回應(yīng)能力,讓企業(yè)成員以單一搜索頁面、簡易的操作方式,即可在最短時(shí)間內(nèi),完整、準(zhǔn)確、及時(shí)地掌握企業(yè)內(nèi)外所有信息,不必再耗費(fèi)大量時(shí)間的找尋信息!ü信
6、息過量不會(huì)造成企業(yè)成員的信息焦慮!通過本系統(tǒng)強(qiáng)大的索引/搜索能力,大量的信息也可在瞬間過濾出符合使用者條件的信息,不必?fù)?dān)心迷失在漫漫的信息洪流之中!ü非結(jié)構(gòu)/非組織的信息,不再是知識(shí)管理的盲點(diǎn)!文件/檔案以及非經(jīng)過分類管理的信息,因?yàn)楦郊有畔⑾∩?,往往成為知識(shí)利用上難以判斷、分析的信息。本系統(tǒng)直接針對內(nèi)容全文分析、關(guān)聯(lián),使這類信息同樣可讓使用者以檢索方式,快速篩選利用!ü整合容易,使用簡易,導(dǎo)入迅速,易于接受!套裝化、模塊化的設(shè)計(jì)及靈活的整合能力,能在企業(yè)內(nèi)迅速的安裝設(shè)置;操作方式簡單,企業(yè)成員易于接受,導(dǎo)入方便。以最經(jīng)濟(jì)的時(shí)間、人力及費(fèi)用成本為企業(yè)創(chuàng)建信息流通、充分分享的知識(shí)
7、環(huán)境。1.2全文檢索系統(tǒng)平臺(tái)架構(gòu)本系統(tǒng)基于組件化和松散耦合架構(gòu)和設(shè)計(jì),系統(tǒng)平臺(tái)架構(gòu)示意圖如下:完美WORD格式編輯專業(yè)資料整理分享整個(gè)系統(tǒng)主要分為信息整合、信息萃取和服務(wù)、應(yīng)用整合三個(gè)部分。ü信息整合此部分主要作用是將企業(yè)內(nèi)部存儲(chǔ)于不同應(yīng)用系統(tǒng)中的結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息、非結(jié)構(gòu)化信息通過本系統(tǒng)提供的兩種數(shù)據(jù)適配器進(jìn)行信息提取,形成一個(gè)相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層,以備后期信息萃取和服務(wù)。ü信息萃取和服務(wù)在信息整合層形成的相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層基礎(chǔ)上,本系統(tǒng)將對其中的每筆記錄進(jìn)行中文切分詞、索引、