網(wǎng)站全文檢索方案

網(wǎng)站全文檢索方案

ID:5997623

大?。?.63 MB

頁數(shù):25頁

時間:2017-12-30

網(wǎng)站全文檢索方案_第1頁
網(wǎng)站全文檢索方案_第2頁
網(wǎng)站全文檢索方案_第3頁
網(wǎng)站全文檢索方案_第4頁
網(wǎng)站全文檢索方案_第5頁
資源描述:

《網(wǎng)站全文檢索方案》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、浙江天宇信息技術(shù)有限公司政務公眾網(wǎng)全文檢索系統(tǒng)技術(shù)方案浙江天宇信息技術(shù)有限公司第一部分對系統(tǒng)需求的理解1.1前言互聯(lián)網(wǎng)作為“第四媒體”已成為人們生活或工作中不可或缺的信息獲取的手段。各級政府機關(guān)紛紛構(gòu)建了內(nèi)容豐富的政府門戶網(wǎng)站與內(nèi)部辦公網(wǎng),方便公眾網(wǎng)上辦事,提高了政府機關(guān)的辦事效率。但是,隨著網(wǎng)站內(nèi)容的不斷豐富,網(wǎng)頁數(shù)量也呈幾何式增長,由此也帶來了一個問題:政府門戶網(wǎng)站或網(wǎng)站群信息量巨大,缺乏一條有效的信息快速獲取的途徑,導致公眾在相關(guān)的政府門戶網(wǎng)站上不知道如何在短時間內(nèi)找到自己需要或最感興趣的內(nèi)容,查詢所需要的信息卻變

2、得越來越困難,于是很快就失去耐心,離開這個網(wǎng)站。借鑒門戶網(wǎng)站的經(jīng)驗,通過搜索引擎的方式,建立基于網(wǎng)站內(nèi)部頁面的導航系統(tǒng)——網(wǎng)站全文檢索系統(tǒng),就成為解決以上問題的主要措施。然而,政務公眾網(wǎng)全文檢索系統(tǒng)還不同于一般的搜索引擎系統(tǒng),它需要對網(wǎng)站上幾乎所有的內(nèi)容都需要采集下來,包括各種格式的頁面信息,采全率越高就越能體現(xiàn)導航系統(tǒng)的優(yōu)勢。目前常用的互聯(lián)網(wǎng)搜索引擎系統(tǒng),考慮到應用的需要,沒有對動態(tài)數(shù)據(jù)庫中的內(nèi)容進行采集(是否具備此類功能是未知的)。而許多政府網(wǎng)站的頁面,很多是通過程序動態(tài)生成的,或者是存儲在后臺數(shù)據(jù)庫中的,格式多樣。

3、浙江天宇的采集系統(tǒng)考慮到實際的應用需要,除了具備搜索引擎系統(tǒng)具備的采集功能外,還實現(xiàn)了對動態(tài)數(shù)據(jù)庫里的頁面及由程序動態(tài)生成的頁面進行實時采集。本方案中采用浙江天宇信息技術(shù)有限公司開發(fā)的新一代智能化的互聯(lián)網(wǎng)天信息采集系統(tǒng)作為應用核心,海量非結(jié)構(gòu)化全文數(shù)據(jù)庫系統(tǒng)作為后臺WEB頁面的管理平臺,提供一站式的全文檢索服務。這將有效地解決上述問題。浙江天宇信息技術(shù)有限公司1.2需求分析1.2.1應用目標通過建立政務公眾網(wǎng)全文檢索系統(tǒng),實現(xiàn)對以XX市政務網(wǎng)為核心,涉及到所有XX各級政府部門的門戶網(wǎng)站W(wǎng)EB頁面內(nèi)容的批量采集,建立搜索引

4、擎庫,在XX政務網(wǎng)門戶網(wǎng)站上建立政務網(wǎng)站導航功能的政務公眾網(wǎng)全文檢索系統(tǒng),公眾只需要登錄到XX政務網(wǎng),通過檢索系統(tǒng),便可以查詢到所有XX各級政府部門的門戶網(wǎng)站上所需要的政務信息,提高公眾的查詢與使用政務信息的效率,從而真正體現(xiàn)XX市政府部門便民服務的核心與宗旨。1.2.2功能需求根據(jù)應用目標和招標書建設內(nèi)容的要求,在認真閱讀分析招標書和了解XX市政務網(wǎng)應用現(xiàn)狀基礎(chǔ)上,我們理解,XX市政務公眾網(wǎng)全文檢索系統(tǒng)的建設的核心可以分解為三個子系統(tǒng)的建設:采集子系統(tǒng)、管理子系統(tǒng)、檢索子系統(tǒng)。采集子系統(tǒng):實現(xiàn)對各級政務網(wǎng)站W(wǎng)EB頁面的

5、批量采集的系統(tǒng)工具,支持對各類格式信息的采集。管理子系統(tǒng):實現(xiàn)對采集的內(nèi)容的管理、采集管理、各類詞典與詞表的管理、用戶管理、日志管理、檢索管理等應用功能。檢索子系統(tǒng):實現(xiàn)對采集的WEB頁面的智能化全文檢索,支持各類檢索方式。另外,系統(tǒng)應具備良好的穩(wěn)定性與安全性,保證系統(tǒng)與采集的數(shù)據(jù)內(nèi)容的安全。浙江天宇信息技術(shù)有限公司1.3方案綜述1.3.1內(nèi)容安排與概要首先,對政務公眾網(wǎng)全文檢索系統(tǒng)的需求進行了分析,明確了建設目標和內(nèi)容;然后進行了總體技術(shù)方案的功能設計,從應用軟件的選擇、系統(tǒng)功能模塊等方面進行了設計;在系統(tǒng)功能模塊的設

6、計和實現(xiàn)方面,對采集子系統(tǒng)、管理子系統(tǒng)與檢索子系統(tǒng)等關(guān)鍵點進行了詳細的功能描述及技術(shù)特點描述。再次,就應用系統(tǒng)的安全方面進行了詳細的描述及功能設計。最后,就招標書中應用系統(tǒng)功能需求條款進行逐個應答。1.3.2方案特點l采用了業(yè)界主流和開放的技術(shù)標準和設計模式,提供開放的、平臺級的應用編程接口和管理工具,可根據(jù)業(yè)務需要進行擴展;l系統(tǒng)采用國內(nèi)領(lǐng)先的智能化互聯(lián)網(wǎng)采集系統(tǒng)與非結(jié)構(gòu)化海量全文數(shù)據(jù)庫系統(tǒng)作為政務公眾網(wǎng)全文檢索系統(tǒng)的采集、管理與檢索平臺,保證了系統(tǒng)具備了先進性與良好的開放性。l智能化采集系統(tǒng)具備強大的采集功能,能夠采

7、集幾乎所有類型的數(shù)據(jù)內(nèi)容,支持ROBOTS協(xié)議。l采用統(tǒng)一身份認證、權(quán)限控制、用戶操作審計等安全措施,使得整個系統(tǒng)具有較強的安全性。浙江天宇信息技術(shù)有限公司第二部分技術(shù)方案2.1方案設計2.1.1軟件平臺選擇浙江天宇信息技術(shù)有限公司憑借在信息服務、網(wǎng)站建設等建設領(lǐng)域多年的項目實施經(jīng)驗及1000多家成功應用案例,針對XX市政府政務公眾網(wǎng)全文檢索系統(tǒng)的實際需求及未來的發(fā)展需要,提供一整套解決方案與成熟的具有自主知識產(chǎn)權(quán)的系列軟件產(chǎn)品——政務公眾網(wǎng)全文檢索系統(tǒng)。從應用實現(xiàn)的角度,政務公眾網(wǎng)全文檢索系統(tǒng)選擇基于:瀏覽器與客戶端相

8、結(jié)合來實現(xiàn)目標系統(tǒng)的應用功能?;谟脩舴降挠布h(huán)境及操作系統(tǒng)環(huán)境,我們的方案選擇相應數(shù)據(jù)庫平臺及應用系統(tǒng)軟件來具體實現(xiàn)政務公眾網(wǎng)全文檢索系統(tǒng)的建設目標。XX市政務公眾網(wǎng)全文檢索系統(tǒng)應用軟件平臺網(wǎng)站搜索引擎系統(tǒng)全文檢索系統(tǒng)CGRS5.1智能互聯(lián)網(wǎng)信息采集系統(tǒng)CGRS搜索引擎庫……CGRS全文數(shù)據(jù)庫數(shù)據(jù)庫平臺UNIX/L

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。