資源描述:
《全文檢索方案.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、1全文檢索系統(tǒng)方案1.1全文檢索系統(tǒng)總體方案系統(tǒng)將采用以下全文檢索流程。針對企業(yè)內(nèi)部的信息,包括文件服務(wù)器上的文件、網(wǎng)站網(wǎng)頁、ERP等系統(tǒng)存放信息的數(shù)據(jù)庫信息、辦公應(yīng)用中的公文檔案文檔已經(jīng)內(nèi)容管理系統(tǒng)中流轉(zhuǎn)的內(nèi)容,本系統(tǒng)提供了兩種數(shù)據(jù)適配器來提取其中的正文內(nèi)容和屬性內(nèi)容,形成一個相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層;本系統(tǒng)的索引引擎(Indexer)對結(jié)構(gòu)化的數(shù)據(jù)虛擬層進行中文切分詞、文件特征分析和逐步索引,以及其它索引算法,生成索引數(shù)據(jù)庫;使用者(user)在搜索頁面中輸入查詢字串等搜索條件并提交給本系統(tǒng)后,本系統(tǒng)的全文檢索查詢引擎(Searcher)會在索引
2、庫中進行搜索,并將符合搜索條件的搜索結(jié)果返回給使用者;使用者(user)可于查詢結(jié)果頁面,進一步鏈接到信息原文查看詳細內(nèi)容。對于系統(tǒng)管理,管理員可通過相應(yīng)web方式的管理程序來管理整個系統(tǒng)運行環(huán)境及設(shè)置文件;并通過索引引擎(Indexer.exe)實時或定時創(chuàng)建索引,更新索引數(shù)據(jù)庫的內(nèi)容,使檢索信息維持在最新狀態(tài)。1.1全文檢索系統(tǒng)平臺架構(gòu)本系統(tǒng)基于組件化和松散耦合架構(gòu)和設(shè)計,系統(tǒng)平臺架構(gòu)示意圖如下:整個系統(tǒng)主要分為信息整合、信息萃取和服務(wù)、應(yīng)用整合三個部分。ü信息整合此部分主要作用是將企業(yè)內(nèi)部存儲于不同應(yīng)用系統(tǒng)中的結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息、非結(jié)構(gòu)
3、化信息通過本系統(tǒng)提供的兩種數(shù)據(jù)適配器進行信息提取,形成一個相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層,以備后期信息萃取和服務(wù)。ü信息萃取和服務(wù)在信息整合層形成的相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層基礎(chǔ)上,本系統(tǒng)將對其中的每筆記錄進行中文切分詞、索引、文件特征分析、自動分類等各種演算算法處理,形成可以提供搜索服務(wù)的索引庫。用戶利用本系統(tǒng)的搜索引擎處理提供的強大的搜索功能,如中文同音搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準確、完整、及時、有效地搜索到符合自己搜索條件的信息。ü應(yīng)用整合本系統(tǒng)還提供了完整的外部程序整合機制。所有組件均提供SDK完整開發(fā)接口
4、,方便應(yīng)用整合和應(yīng)用擴展。1.1.1信息整合此部分主要提供對企業(yè)內(nèi)外部非結(jié)構(gòu)性數(shù)據(jù)信息源建立自動化數(shù)據(jù)匯入功能。根據(jù)用戶實際需求,用戶可以選擇導(dǎo)入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、圖片的文件名或摘要、及文字)自動化建立索引數(shù)據(jù),建立索引數(shù)據(jù)所處理之文字包括繁體中文、簡體中文等;同時用戶可以選擇導(dǎo)入數(shù)據(jù)庫數(shù)據(jù),如Oracle、Informix、Sybase、MSSQL等。此外和Notes系統(tǒng)也已經(jīng)有了無縫整合,可
5、掛載NotesComposer對nsf庫中正文及附件信息索引,在做索引的過程中自動把每筆記錄的權(quán)限鍵入索引庫。本系統(tǒng)提供可掛載的數(shù)據(jù)適配器(DataAdapter),將異質(zhì)的數(shù)據(jù)來源與數(shù)據(jù)結(jié)構(gòu)進行匯整與粹取,亦扮演將非結(jié)構(gòu)的信息結(jié)構(gòu)化,可以很容易地分析特殊檔案格式和管理復(fù)雜的數(shù)據(jù)源結(jié)構(gòu)(如遞歸、巢狀等)的多功能設(shè)計,以方便信息檢索與管理。以e-mail含附件為例,e-mailAdapter可解析e-mail內(nèi)文,而當選購officeAdapter后,原來的e-mailAdapter即可解析office相關(guān)的附件文件,可視需求額外購買PDF、ZIP、
6、RAR、OCR等不同數(shù)據(jù)適配器,即可交互搭配使用。搭配使用本系統(tǒng)的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta資料提取器,將可解析Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT及E-mail(含附件文件)及文件影音附檔(如影片的文件名或摘要、圖片的文件名或摘要、及文字)等格式,包括繁體中文、簡體中文、英文、Unicode等;使用數(shù)據(jù)庫數(shù)據(jù)適配器,將可支持數(shù)據(jù)庫數(shù)據(jù)匯入處理如Oracle、Informix、Sybase、MSSQL等。1.1.1信息萃取和服務(wù)此部分
7、須提供對數(shù)據(jù)提取的內(nèi)容所包含的信息,進行數(shù)據(jù)處理分析,包含:ü分類模式建立自動分類功能。ü針對非結(jié)構(gòu)性數(shù)據(jù)建立詞庫,詞庫須包含同音詞庫、同義詞庫、專業(yè)詞庫。ü自動分類機制與專業(yè)詞庫須具備自動學(xué)習(xí)與修正之功能以提升數(shù)據(jù)處理準確度。ü可針對不同使用層級、項目進行非結(jié)構(gòu)性數(shù)據(jù)權(quán)限控管。依照使用者不同等級提供不同權(quán)限的查詢功能接口。應(yīng)用本系統(tǒng)一系列內(nèi)容分析與索引核心組件群,將匯整的內(nèi)容進行斷詞、索引、分類、文件特征等運算與處理,以便滿足信息檢索與信息管理的應(yīng)用,提供多功能全面性的數(shù)據(jù)分析能力,可針對不同情境應(yīng)用加以整合,快速達到使用者需求。同時,用戶利用本
8、系統(tǒng)的搜索引擎處理提供的強大的搜索功能,如中文同音搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、