網(wǎng)站全文檢索方案

網(wǎng)站全文檢索方案

ID:81766912

大?。?.63 MB

頁(yè)數(shù):26頁(yè)

時(shí)間:2023-07-20

上傳者:勝利的果實(shí)
網(wǎng)站全文檢索方案_第1頁(yè)
網(wǎng)站全文檢索方案_第2頁(yè)
網(wǎng)站全文檢索方案_第3頁(yè)
網(wǎng)站全文檢索方案_第4頁(yè)
網(wǎng)站全文檢索方案_第5頁(yè)
網(wǎng)站全文檢索方案_第6頁(yè)
網(wǎng)站全文檢索方案_第7頁(yè)
網(wǎng)站全文檢索方案_第8頁(yè)
網(wǎng)站全文檢索方案_第9頁(yè)
網(wǎng)站全文檢索方案_第10頁(yè)
資源描述:

《網(wǎng)站全文檢索方案》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

浙江天宇信息技術(shù)有限公司政務(wù)公眾網(wǎng)全文檢索系統(tǒng)技術(shù)方案

1浙江天宇信息技術(shù)有限公司第一部分對(duì)系統(tǒng)需求的理解1。1前言互聯(lián)網(wǎng)作為“第四媒體”已成為人們生活或工作中不可或缺的信息獲取的手段。各級(jí)政府機(jī)關(guān)紛紛構(gòu)建了內(nèi)容豐富的政府門戶網(wǎng)站與內(nèi)部辦公網(wǎng),方便公眾網(wǎng)上辦事,提高了政府機(jī)關(guān)的辦事效率。但是,隨著網(wǎng)站內(nèi)容的不斷豐富,網(wǎng)頁(yè)數(shù)量也呈幾何式增長(zhǎng),由此也帶來了一個(gè)問題:政府門戶網(wǎng)站或網(wǎng)站群信息量巨大,缺乏一條有效的信息快速獲取的途徑,導(dǎo)致公眾在相關(guān)的政府門戶網(wǎng)站上不知道如何在短時(shí)間內(nèi)找到自己需要或最感興趣的內(nèi)容,查詢所需要的信息卻變得越來越困難,于是很快就失去耐心,離開這個(gè)網(wǎng)站。借鑒門戶網(wǎng)站的經(jīng)驗(yàn),通過搜索引擎的方式,建立基于網(wǎng)站內(nèi)部頁(yè)面的導(dǎo)航系統(tǒng)—-網(wǎng)站全文檢索系統(tǒng),就成為解決以上問題的主要措施.然而,政務(wù)公眾網(wǎng)全文檢索系統(tǒng)還不同于一般的搜索引擎系統(tǒng),它需要對(duì)網(wǎng)站上幾乎所有的內(nèi)容都需要采集下來,包括各種格式的頁(yè)面信息,采全率越高就越能體現(xiàn)導(dǎo)航系統(tǒng)的優(yōu)勢(shì)。目前常用的互聯(lián)網(wǎng)搜索引擎系統(tǒng),考慮到應(yīng)用的需要,沒有對(duì)動(dòng)態(tài)數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行采集(是否具備此類功能是未知的).而許多政府網(wǎng)站的頁(yè)面,很多是通過程序動(dòng)態(tài)生成的,或者是存儲(chǔ)在后臺(tái)數(shù)據(jù)庫(kù)中的,格式多樣.浙江天宇的采集系統(tǒng)考慮到實(shí)際的應(yīng)用需要,除了具備搜索引擎系統(tǒng)具備的采集功能外,還實(shí)現(xiàn)了對(duì)動(dòng)態(tài)數(shù)據(jù)庫(kù)里的頁(yè)面及由程序動(dòng)態(tài)生成的頁(yè)面進(jìn)行實(shí)時(shí)采集。本方案中采用浙江天宇信息技術(shù)有限公司開發(fā)的新一代智能化的互聯(lián)網(wǎng)天信息采集系統(tǒng)作為應(yīng)用核心,海量非結(jié)構(gòu)化全文數(shù)據(jù)庫(kù)系統(tǒng)作為后臺(tái)WEB頁(yè)面的管理平臺(tái),提供一站式的全文檢索服務(wù)。這將有效地解決上述問題.

2浙江天宇信息技術(shù)有限公司1.2需求分析1.2.1應(yīng)用目標(biāo)通過建立政務(wù)公眾網(wǎng)全文檢索系統(tǒng),實(shí)現(xiàn)對(duì)以XX市政務(wù)網(wǎng)為核心,涉及到所有XX各級(jí)政府部門的門戶網(wǎng)站W(wǎng)EB頁(yè)面內(nèi)容的批量采集,建立搜索引擎庫(kù),在XX政務(wù)網(wǎng)門戶網(wǎng)站上建立政務(wù)網(wǎng)站導(dǎo)航功能的政務(wù)公眾網(wǎng)全文檢索系統(tǒng),公眾只需要登錄到XX政務(wù)網(wǎng),通過檢索系統(tǒng),便可以查詢到所有XX各級(jí)政府部門的門戶網(wǎng)站上所需要的政務(wù)信息,提高公眾的查詢與使用政務(wù)信息的效率,從而真正體現(xiàn)XX市政府部門便民服務(wù)的核心與宗旨。1.2.2功能需求根據(jù)應(yīng)用目標(biāo)和招標(biāo)書建設(shè)內(nèi)容的要求,在認(rèn)真閱讀分析招標(biāo)書和了解XX市政務(wù)網(wǎng)應(yīng)用現(xiàn)狀基礎(chǔ)上,我們理解,XX市政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的建設(shè)的核心可以分解為三個(gè)子系統(tǒng)的建設(shè):采集子系統(tǒng)、管理子系統(tǒng)、檢索子系統(tǒng).采集子系統(tǒng):實(shí)現(xiàn)對(duì)各級(jí)政務(wù)網(wǎng)站WEB頁(yè)面的批量采集的系統(tǒng)工具,支持對(duì)各類格式信息的采集。管理子系統(tǒng):實(shí)現(xiàn)對(duì)采集的內(nèi)容的管理、采集管理、各類詞典與詞表的管理、用戶管理、日志管理、檢索管理等應(yīng)用功能。檢索子系統(tǒng):實(shí)現(xiàn)對(duì)采集的WEB頁(yè)面的智能化全文檢索,支持各類檢索方式。另外,系統(tǒng)應(yīng)具備良好的穩(wěn)定性與安全性,保證系統(tǒng)與采集的數(shù)據(jù)內(nèi)容的安全。

3浙江天宇信息技術(shù)有限公司1.3方案綜述1。3。1內(nèi)容安排與概要首先,對(duì)政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的需求進(jìn)行了分析,明確了建設(shè)目標(biāo)和內(nèi)容;然后進(jìn)行了總體技術(shù)方案的功能設(shè)計(jì),從應(yīng)用軟件的選擇、系統(tǒng)功能模塊等方面進(jìn)行了設(shè)計(jì);在系統(tǒng)功能模塊的設(shè)計(jì)和實(shí)現(xiàn)方面,對(duì)采集子系統(tǒng)、管理子系統(tǒng)與檢索子系統(tǒng)等關(guān)鍵點(diǎn)進(jìn)行了詳細(xì)的功能描述及技術(shù)特點(diǎn)描述。再次,就應(yīng)用系統(tǒng)的安全方面進(jìn)行了詳細(xì)的描述及功能設(shè)計(jì)。最后,就招標(biāo)書中應(yīng)用系統(tǒng)功能需求條款進(jìn)行逐個(gè)應(yīng)答。1.3.2方案特點(diǎn)l采用了業(yè)界主流和開放的技術(shù)標(biāo)準(zhǔn)和設(shè)計(jì)模式,提供開放的、平臺(tái)級(jí)的應(yīng)用編程接口和管理工具,可根據(jù)業(yè)務(wù)需要進(jìn)行擴(kuò)展;l系統(tǒng)采用國(guó)內(nèi)領(lǐng)先的智能化互聯(lián)網(wǎng)采集系統(tǒng)與非結(jié)構(gòu)化海量全文數(shù)據(jù)庫(kù)系統(tǒng)作為政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的采集、管理與檢索平臺(tái),保證了系統(tǒng)具備了先進(jìn)性與良好的開放性.l智能化采集系統(tǒng)具備強(qiáng)大的采集功能,能夠采集幾乎所有類型的數(shù)據(jù)內(nèi)容,支持ROBOTS協(xié)議。l采用統(tǒng)一身份認(rèn)證、權(quán)限控制、用戶操作審計(jì)等安全措施,使得整個(gè)系統(tǒng)具有較強(qiáng)的安全性。

4浙江天宇信息技術(shù)有限公司第二部分技術(shù)方案2.1方案設(shè)計(jì)2.1。1軟件平臺(tái)選擇浙江天宇信息技術(shù)有限公司憑借在信息服務(wù)、網(wǎng)站建設(shè)等建設(shè)領(lǐng)域多年的項(xiàng)目實(shí)施經(jīng)驗(yàn)及1000多家成功應(yīng)用案例,針對(duì)XX市政府政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的實(shí)際需求及未來的發(fā)展需要,提供一整套解決方案與成熟的具有自主知識(shí)產(chǎn)權(quán)的系列軟件產(chǎn)品-—政務(wù)公眾網(wǎng)全文檢索系統(tǒng)。從應(yīng)用實(shí)現(xiàn)的角度,政務(wù)公眾網(wǎng)全文檢索系統(tǒng)選擇基于:瀏覽器與客戶端相結(jié)合來實(shí)現(xiàn)目標(biāo)系統(tǒng)的應(yīng)用功能。基于用戶方的硬件環(huán)境及操作系統(tǒng)環(huán)境,我們的方案選擇相應(yīng)數(shù)據(jù)庫(kù)平臺(tái)及應(yīng)用系統(tǒng)軟件來具體實(shí)現(xiàn)政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的建設(shè)目標(biāo)。XX市政務(wù)公眾網(wǎng)全文檢索系統(tǒng)應(yīng)用軟件平臺(tái)網(wǎng)站搜索引擎系統(tǒng)全文檢索系統(tǒng)CGRS5.1智能互聯(lián)網(wǎng)信息采集系統(tǒng)CGRS搜索引擎庫(kù)……CGRS全文數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)平臺(tái)UNIX/LINUX/WINDOWS2000/2003操作系統(tǒng)

5浙江天宇信息技術(shù)有限公司2.1。2 系統(tǒng)功能結(jié)構(gòu)政務(wù)公眾網(wǎng)全文檢索系統(tǒng)主要是以CGRS全文數(shù)據(jù)庫(kù)為應(yīng)用支撐平臺(tái),以智能化網(wǎng)絡(luò)機(jī)器人技術(shù)及全文檢索技術(shù)作為應(yīng)用核心,通過政務(wù)公眾網(wǎng)全文檢索系統(tǒng)將采集到搜索引擎庫(kù)中的WEB頁(yè)面信息對(duì)公眾提供智能化的高效的全文檢索服務(wù)。系統(tǒng)圍繞政務(wù)門戶網(wǎng)站上各種信息資源的采集與聚類、信息過濾和管理、信息的智能檢索,構(gòu)建XX市政務(wù)公眾網(wǎng)全文檢索系統(tǒng)。2.2系統(tǒng)功能及技術(shù)指標(biāo)2.2.1采集子系統(tǒng)功能及技術(shù)指標(biāo)2.2。1.1采集子系統(tǒng)工作流程采集子系統(tǒng)主要完成對(duì)目標(biāo)網(wǎng)站或網(wǎng)站群上WEB頁(yè)面及其他附件信息的批量采集,通過內(nèi)容過濾,加載到CGRS搜索引擎庫(kù),進(jìn)行管理與提供網(wǎng)站全文檢索服務(wù).采集子系統(tǒng)的工作流程主要包含以下幾個(gè)部分:1、確定采集目標(biāo)網(wǎng)站,建立采集工程;2、對(duì)采集工程進(jìn)行搜索策略的定義及過濾條件等內(nèi)容的設(shè)定;3、根據(jù)URL特征進(jìn)行網(wǎng)站頻道的分類采集、過濾及內(nèi)容自動(dòng)去重;4、采集的內(nèi)容自動(dòng)加載到CGRS搜索引擎庫(kù),交由CGRS全文數(shù)據(jù)庫(kù)管理系統(tǒng)進(jìn)行統(tǒng)一管理。

6浙江天宇信息技術(shù)有限公司采集子系統(tǒng)工作流程圖2.2。1.2功能描述(1)建立采集工程在本方案中以“XX政務(wù)網(wǎng)”為實(shí)例進(jìn)行采集子系統(tǒng)的功能介紹及采集子系統(tǒng)界面描述。政務(wù)網(wǎng)采集工程http://www.XX政務(wù)網(wǎng).gov.cn定義采集的入口,可以自行根據(jù)需要進(jìn)行設(shè)定。完成采集工程新建工作后,可以立即進(jìn)入工程的參數(shù)配置確定需要采集的目標(biāo)對(duì)象:“XX政務(wù)網(wǎng)(http://www.XX政務(wù)網(wǎng)。gov。cn),建立頁(yè)面批量采集工程。

7浙江天宇信息技術(shù)有限公司起始URL中可以含有日期通配符,如${year}、${month}、${day}或是循環(huán)變量loop,對(duì)于帶有日期信息的入口網(wǎng)站地址URL,可以使用日期通配符;對(duì)于一些數(shù)字或字符串的URL,則可以使用LOOP循環(huán)變量進(jìn)行設(shè)置。通過這些通配符,可以方便地設(shè)定具有一定規(guī)則的URL的多個(gè)采集入口,方便地進(jìn)行多入口分類進(jìn)行采集。提高采集效率與采集質(zhì)量。對(duì)于“XX政務(wù)網(wǎng)”網(wǎng)站,需要分頻道分欄目檢索功能,系統(tǒng)采用建立多個(gè)采集工程的方式,實(shí)現(xiàn)分欄目分頻道采集,統(tǒng)一的全文檢索的目標(biāo)。對(duì)于一些不需要分頻道檢索的其他網(wǎng)站,則可以通過建立一個(gè)采集工程的方式實(shí)現(xiàn)整個(gè)網(wǎng)站信息的的全部采集。(2)采集工程參數(shù)設(shè)置URL選項(xiàng)對(duì)于主機(jī)地址的限定,系統(tǒng)提供四種參數(shù)設(shè)置規(guī)則:①

8浙江天宇信息技術(shù)有限公司地址不限.用戶選中后,系統(tǒng)會(huì)無限制進(jìn)行采集,可以通過XX政務(wù)網(wǎng)內(nèi)的所有鏈接,進(jìn)行WEB頁(yè)面的采集.②本站內(nèi)。對(duì)本站內(nèi)搜索的WEB頁(yè)面進(jìn)行批量采集,對(duì)于其他網(wǎng)站上的友情連接網(wǎng)站,則不進(jìn)行采集。③本站內(nèi)限定的目錄。通過對(duì)采集路徑進(jìn)行限定,實(shí)現(xiàn)了分欄目分頻道進(jìn)行采集,為分頻道進(jìn)行全文檢索奠定基礎(chǔ)。通過這個(gè)參數(shù)的設(shè)定,可以定位到某個(gè)欄目或某幾個(gè)欄目的批量采集.④自定義。用戶可以根據(jù)需要,自己定義采集的范圍,這個(gè)設(shè)置的靈活性非常高,自由度大.對(duì)于“XX政務(wù)網(wǎng)”自身的頁(yè)面內(nèi)容的采集,則選擇通過限定目錄的方式進(jìn)行采集,便于進(jìn)行分頻道檢索;對(duì)于采集其他網(wǎng)站群,則選擇自定義方式在目標(biāo)網(wǎng)站群中進(jìn)行無限制采集。URL過濾。對(duì)于采集的頁(yè)面,可以允許采集那些帶有一定URL規(guī)則的頁(yè)面,也可以排除某些帶有一定URL規(guī)則的頁(yè)面,提高采集的效率.采集“XX政務(wù)網(wǎng)”自身,需要考慮使用URL過濾方式,便于精確采集頻道內(nèi)容,其他的網(wǎng)站采集則無須考慮URL過濾。搜索限定支持robots協(xié)議,另外,系統(tǒng)也可以不遵循此協(xié)議支持腳本語(yǔ)言解析,采集通過程序動(dòng)態(tài)生成的頁(yè)面。搜索限定主要是設(shè)置定義采集目標(biāo)網(wǎng)站的深度和文件類型。采集目標(biāo)網(wǎng)站的深度設(shè)置,通過層的方式進(jìn)行控制.采集“XX政務(wù)網(wǎng)”

9浙江天宇信息技術(shù)有限公司時(shí),根據(jù)前面URL采集規(guī)則的設(shè)定,需要進(jìn)行分頻道分欄目進(jìn)行采集,那么在這里層數(shù)設(shè)置為“1”,也就是對(duì)目標(biāo)URL下面的頁(yè)面進(jìn)行采集,這樣就可以精確的采集到某個(gè)或某些頻道或欄目下的頁(yè)面了,不會(huì)出現(xiàn)采集其他信息的可能。對(duì)于采集其他網(wǎng)站群,則選擇“-1”,表示無限制采集URL規(guī)則下面的所有WEB頁(yè)面.當(dāng)然,用戶可以根據(jù)實(shí)際需要,采集需要的層數(shù)。對(duì)于有些網(wǎng)站的層數(shù)是通過腳本語(yǔ)言控制動(dòng)態(tài)生成的,我們可以選擇本系統(tǒng)中“腳本語(yǔ)言解析器"進(jìn)行腳本解析,這將有效地解決通過腳本語(yǔ)言動(dòng)態(tài)生成的頁(yè)面,做到100%的目標(biāo)網(wǎng)頁(yè)內(nèi)容的采集。采集的文件類型。系統(tǒng)支持對(duì)頁(yè)面內(nèi)容(htm、html、xml、shtml、asp、php、jsp、notes等)、網(wǎng)頁(yè)附件(doc、xls、ppt、txt、pdf等)、圖片(jpg、gif、jpeg、bmp等)、音頻(MP3等)、視頻(AVI、RM、MPEG等)、JAVA(由JAVASCRIPT程序生成的頁(yè)面)等內(nèi)容的采集。對(duì)于頁(yè)面內(nèi)聯(lián)圖片的采集,可以做到保持原樣不變的進(jìn)行采集。根據(jù)本項(xiàng)目的實(shí)際需要,我們選擇“總是下載內(nèi)聯(lián)圖片、全部格式”進(jìn)行頁(yè)面內(nèi)容的批量采集,這樣就能有效地保證采集各類靜、動(dòng)態(tài)網(wǎng)頁(yè)、網(wǎng)頁(yè)附件、由JAVASCRIPT生成的頁(yè)面等內(nèi)容的采集,實(shí)現(xiàn)用戶方的功能需求,其他設(shè)置參數(shù)可以不需要考慮。數(shù)據(jù)處理數(shù)據(jù)處理主要是執(zhí)行下載的網(wǎng)頁(yè)數(shù)據(jù)上載到數(shù)據(jù)庫(kù),并在網(wǎng)頁(yè)入庫(kù)前做一些預(yù)處理的操作流程:選擇數(shù)據(jù)庫(kù)、數(shù)據(jù)預(yù)處理、網(wǎng)頁(yè)內(nèi)容提取。支持各類碼集及各類碼集的轉(zhuǎn)換可以設(shè)定過濾條件,過濾含有黃色信息的頁(yè)面

10浙江天宇信息技術(shù)有限公司發(fā)送數(shù)據(jù)庫(kù),是將采集下來的頁(yè)面分類分頻道地發(fā)送到指定的CGRS搜索引擎數(shù)據(jù)庫(kù)中進(jìn)行統(tǒng)一的管理。數(shù)據(jù)預(yù)備處理,可以支持各類字符集編碼,如GBK、GB2312、BIG5等,并可以實(shí)現(xiàn)采集頁(yè)面內(nèi)容的時(shí)候,自動(dòng)進(jìn)行識(shí)別,將BIG5碼集的內(nèi)容轉(zhuǎn)換為GB2312碼集。自動(dòng)分類,主要是實(shí)現(xiàn)對(duì)采集的內(nèi)容按需要進(jìn)行分頻道分類采集,便于用戶分頻道進(jìn)行檢索。排除URL是根據(jù)分頻道采集的時(shí)候進(jìn)行URL上載到數(shù)據(jù)庫(kù)前的二次過濾,提高分頻道采集的準(zhǔn)確性(后面進(jìn)行如何進(jìn)行分類進(jìn)行詳細(xì)的描述)。網(wǎng)頁(yè)內(nèi)容過濾是在采集的時(shí)候,可以設(shè)置過濾條件,將含有黃色信息的頁(yè)面進(jìn)行采集過濾。在本項(xiàng)目中,數(shù)據(jù)預(yù)處理各類參數(shù)我們都需要進(jìn)行細(xì)致的設(shè)置,便可達(dá)到用戶的功能需求。網(wǎng)頁(yè)內(nèi)容提取,是實(shí)現(xiàn)對(duì)采集的WEB頁(yè)面進(jìn)行內(nèi)容的過濾提取,并進(jìn)行格式化.在本項(xiàng)目中根據(jù)實(shí)際情況,可以不需對(duì)這項(xiàng)參數(shù)進(jìn)行具體的設(shè)置。分類規(guī)則及實(shí)現(xiàn)

11浙江天宇信息技術(shù)有限公司根據(jù)青島政務(wù)網(wǎng)的欄目,設(shè)置分類規(guī)則分類采集主要是根據(jù)網(wǎng)站欄目的URL特征進(jìn)行采集的分類分析青島政務(wù)網(wǎng)的欄目的URL特征,生成匹配規(guī)則只要采集的頁(yè)面URL滿足匹配規(guī)則,則歸到相關(guān)的分類對(duì)于搜索引擎庫(kù)的各個(gè)字段,采集子系統(tǒng)根據(jù)采集的需要均可進(jìn)行個(gè)性化的設(shè)定.高級(jí)屬性設(shè)置配置網(wǎng)頁(yè)下載的一些高級(jí)屬性,主要包括建庫(kù)方式、是否啟用代理、下載的配置以及對(duì)要身份驗(yàn)證的網(wǎng)站,可以預(yù)先填入用戶名和密碼來訪問該網(wǎng)站等功能。支持采集客戶端通過代理服務(wù)器進(jìn)行采集,選中進(jìn)行通用配置支持對(duì)需要身份校驗(yàn)的網(wǎng)站進(jìn)行采集配置代理服務(wù)器支持對(duì)硬盤進(jìn)行管理,用戶可以設(shè)定硬盤資源不足停止下載及警告根據(jù)目標(biāo)網(wǎng)站的實(shí)際情況,用戶可以設(shè)置掃描間隔

12浙江天宇信息技術(shù)有限公司建庫(kù)方式:選擇脫機(jī)瀏覽還是上載入庫(kù)方式。應(yīng)選擇上載入庫(kù)的方式。代理服務(wù)器:如果用戶需要通過代理,才能上網(wǎng),就需要在通用配置里設(shè)置代理服務(wù)器的信息。系統(tǒng)支持通過代理服務(wù)器進(jìn)行采集。

13浙江天宇信息技術(shù)有限公司下載配置:用戶可以自行配置掃描與下載的時(shí)間間隔,以達(dá)到最佳的采集效果。用戶根據(jù)需要設(shè)定采集掃描間隔,進(jìn)行增量式采集。系統(tǒng)會(huì)根據(jù)設(shè)定,自動(dòng)進(jìn)行掃描與采集。在通用配置里,用戶可以設(shè)置硬盤資源不足的時(shí)候進(jìn)行警告及停止頁(yè)面的下載。至此,完成這個(gè)采集子系統(tǒng)的配置工作,可以通過天宇的下載調(diào)度中心自動(dòng)控制工程進(jìn)行增量式下載更新.2。2。1。3技術(shù)參數(shù)指標(biāo)①頁(yè)面采集內(nèi)容的完整性。適應(yīng)網(wǎng)站內(nèi)容格式的多變性,能完整地獲取需要采集的頁(yè)面。②提取內(nèi)容的深度與精確性。能方便將網(wǎng)頁(yè)中的結(jié)構(gòu)化字段信息提取出來,如日期,標(biāo)題,作者,欄目等等內(nèi)容,過濾網(wǎng)頁(yè)中如廣告等無用信息。③內(nèi)容自動(dòng)去重。用戶選擇幾種去重標(biāo)準(zhǔn):如標(biāo)題、作者一樣,正文字節(jié)數(shù)一樣即認(rèn)為是重稿,或者內(nèi)容一模一樣,認(rèn)為是重稿;或者80%、90%相似認(rèn)為是重稿等標(biāo)準(zhǔn),可供用戶選擇。④

14浙江天宇信息技術(shù)有限公司網(wǎng)站采集范圍的精確定義。通過起始URL地址、URL范圍表達(dá)式(可包含正則表達(dá)式)、搜索深度、文件類型控制的定義來精確描述需要采集的網(wǎng)站范圍,可以精確到整個(gè)網(wǎng)站、特定欄目、特定頁(yè)面;過濾掉無用的鏈接。①主題詞過濾網(wǎng)頁(yè)。在采集過程中,可以定義主題詞的邏輯關(guān)系(與、或、非),對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行過濾,精確地獲取與采集主題相關(guān)的網(wǎng)頁(yè)內(nèi)容。②網(wǎng)站動(dòng)態(tài)數(shù)據(jù)庫(kù)抓取。能方便抓取網(wǎng)站上后臺(tái)數(shù)據(jù)庫(kù)的內(nèi)容(JSP,ASP,CGI),和抓取需要通過用戶身份校驗(yàn)的網(wǎng)站內(nèi)容。③網(wǎng)站歷史數(shù)據(jù)的批量下載。方便地成批抓取網(wǎng)站上的歷史數(shù)據(jù)。對(duì)于URL中帶日期變量的網(wǎng)站,只需要設(shè)定一個(gè)規(guī)則,就可以任意下載指定一段時(shí)間范圍內(nèi)的網(wǎng)站歷史數(shù)據(jù)。④自動(dòng)分類和個(gè)性化分類的結(jié)合。即可以通過計(jì)算機(jī)學(xué)習(xí)的自動(dòng)分類規(guī)則,對(duì)獲取的內(nèi)容進(jìn)行自動(dòng)分類;也可以使用主題詞分類方法,對(duì)下載的內(nèi)容進(jìn)行人工批量分類(機(jī)檢分類)。⑤支持簡(jiǎn)繁體網(wǎng)站、中英文網(wǎng)站的搜索.⑥可靠的下載中心調(diào)度,可以設(shè)置采集間隔,支持多個(gè)下載任務(wù)同時(shí)高速下載,每個(gè)任務(wù)可以設(shè)定多個(gè)線程同時(shí)下載。2。2。2管理子系統(tǒng)功能及技術(shù)指標(biāo)管理子系統(tǒng)主要是實(shí)現(xiàn)對(duì)采集下來的各類WEB頁(yè)面、附件等非結(jié)構(gòu)化資源通過CGRS全文數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)一管理。另外,實(shí)現(xiàn)對(duì)采集過程及用戶進(jìn)行有效地管理。管理子系統(tǒng)操作系統(tǒng)UNIX/LINUX/WINDOWSNT/2000內(nèi)容管理多碼集:GBK、BIG5、GB2312CGRS全文數(shù)據(jù)庫(kù)WEB頁(yè)面、附件等數(shù)據(jù)庫(kù)新建、維護(hù)等采集工程管理超鏈接管理系統(tǒng)運(yùn)行管理系統(tǒng)管理員、數(shù)據(jù)庫(kù)管理員與一般檢索用戶三級(jí)用戶管理用戶使用及操作權(quán)限管理,用戶使用檢索統(tǒng)計(jì)分析等采集管理用戶管理CGRS全文數(shù)據(jù)庫(kù)采集系統(tǒng)參數(shù)配置等用戶身份認(rèn)證同義詞典、過濾詞典管理、日志管理

15浙江天宇信息技術(shù)有限公司管理子系統(tǒng)結(jié)構(gòu)示意圖2。2.2.1內(nèi)容管理(1)功能概述①內(nèi)容管理是以CGRS全文數(shù)據(jù)庫(kù)作為后臺(tái)管理系統(tǒng),是對(duì)WEB頁(yè)面、文本、電子文檔、圖像、聲音、映像等頁(yè)面附件提供強(qiáng)大的數(shù)據(jù)庫(kù)管理和檢索功能的全文數(shù)據(jù)庫(kù)平臺(tái)。②系統(tǒng)內(nèi)嵌高可用性的索引機(jī)制,可以使用文中的任意字、詞、短語(yǔ)、句和片段進(jìn)行檢索。③系統(tǒng)具有強(qiáng)大數(shù)據(jù)庫(kù)管理及維護(hù)功能,如搜索引擎數(shù)據(jù)庫(kù)定義、建立、備份、恢復(fù)、邏輯刪除、物理刪除、重組、增量備份、記錄查重等功能。④

16浙江天宇信息技術(shù)有限公司管理子系統(tǒng)支持對(duì)整個(gè)系統(tǒng)(采集子系統(tǒng)、管理子系統(tǒng)、檢索子系統(tǒng))進(jìn)行總體的控制,包括采集系統(tǒng)的啟動(dòng)、檢索子系統(tǒng)的啟動(dòng)與停止,已經(jīng)對(duì)這兩個(gè)子系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行有效的監(jiān)視.如采集子系統(tǒng)的采集狀況、完成比率等,檢索子系統(tǒng)檢索用戶情況等。⑤系統(tǒng)支持對(duì)采集的站點(diǎn)進(jìn)行定義,如配置站點(diǎn)的起始URL、URL過濾規(guī)則、抓取深度、設(shè)置掃描間隔、采集頻道分類等.關(guān)于采集管理,詳見采集子系統(tǒng)功能概述。用戶可以選擇一定的時(shí)間段(日、周、月)來統(tǒng)計(jì)檢索量和關(guān)鍵詞檢索頻度⑥系統(tǒng)具備用戶分析統(tǒng)計(jì)功能,用戶可以根據(jù)需要進(jìn)行用戶檢索情況統(tǒng)計(jì),用戶檢索用詞統(tǒng)計(jì),按天、周、月、年等進(jìn)行用戶使用情況統(tǒng)計(jì),用戶詞頻統(tǒng)計(jì)等等。⑦系統(tǒng)具有獨(dú)立于操作系統(tǒng)的身份驗(yàn)證機(jī)制;用戶使用信息資源的授權(quán)機(jī)制;用戶使用操作限制等。⑧同義詞典的管理與維護(hù)。用戶可以在記事本里編輯同義詞典,也可以直接在管理子系統(tǒng)中編輯同義詞典,并可以對(duì)編輯好的同義詞典進(jìn)行修改、刪除與維護(hù)等操作。

17浙江天宇信息技術(shù)有限公司直接編輯同義詞典,并方便進(jìn)行維護(hù)與管理⑨API接口。系統(tǒng)提供標(biāo)準(zhǔn)的二次開發(fā)接口API,用戶可以根據(jù)實(shí)際需要,定制個(gè)性化的應(yīng)用系統(tǒng).具體接口包括:標(biāo)準(zhǔn)的C++管理與檢索接口(支持Windows和Unix下的通用開發(fā)工具);Javabeans類庫(kù)應(yīng)用程序開發(fā)接口(支持J2EE環(huán)境下的開發(fā)工具);C#類庫(kù)應(yīng)用程序開發(fā)接口(支持。NET平臺(tái)下的開發(fā)工具)。通過這些接口,可以和其他系統(tǒng)集成。(2)技術(shù)指標(biāo)① 開放和可擴(kuò)展的體系結(jié)構(gòu)s分布式體系架構(gòu),支持多域分布和集群分布;s支持所有主流的操作系統(tǒng)和各種Web應(yīng)用服務(wù)器及Web服務(wù)器;s支持J2EE及。NET體系架構(gòu);s32位平臺(tái)支持64位數(shù)據(jù)庫(kù)文件,即支持大于4G的數(shù)據(jù)庫(kù);s支持OFFICE文檔和PDF文檔的自動(dòng)過濾索引;s支持Web自動(dòng)提取內(nèi)容的管理和檢索。② 中文自然語(yǔ)言處理功能

18浙江天宇信息技術(shù)有限公司s字元檢索策略,在保證檢索性能的同時(shí)達(dá)到100%查全率,保障了查準(zhǔn)率;s提供自動(dòng)分類技術(shù)、自動(dòng)摘要功能、文本相似性比較功能;s支持按詞索引、按字索引、字詞混合索引;s支持文本自動(dòng)提取和模式提取;s字段重復(fù)內(nèi)容自動(dòng)去重和計(jì)數(shù).③ 完備的數(shù)據(jù)管理s支持中英文、多語(yǔ)種混合檢索;s支持GBK、GB2312、BIG5內(nèi)碼集,內(nèi)核支持unicode碼集;s支持多種數(shù)據(jù)類型(日期、數(shù)值、大數(shù)值、文本、二進(jìn)制);s并行索引技術(shù),對(duì)于多CPU機(jī)器能大幅度提高索引性能;s支持唯一性字段;s支持字段內(nèi)容自動(dòng)去重;s支持?jǐn)?shù)據(jù)庫(kù)記錄的增刪改操作;s支持多媒體數(shù)據(jù)的關(guān)聯(lián)管理和檢索;s支持?jǐn)?shù)據(jù)批量標(biāo)引;基于主題詞表的批量分類;s支持對(duì)檢索數(shù)據(jù)集進(jìn)行批量管理的功能;s數(shù)據(jù)庫(kù)優(yōu)化重組;s支持Web站點(diǎn)鏡像檢索和內(nèi)容自動(dòng)提取;s數(shù)據(jù)庫(kù)分類導(dǎo)航樹的管理。④開放性s系統(tǒng)支持XML標(biāo)準(zhǔn)交換協(xié)議,保證了系統(tǒng)具有良好的開放性。(3)性能指標(biāo)l數(shù)據(jù)庫(kù)容量:每個(gè)搜索引擎數(shù)據(jù)庫(kù)最多可存貯存42億篇文獻(xiàn);l每個(gè)服務(wù)器允許建立數(shù)據(jù)庫(kù)可達(dá)936個(gè);

19浙江天宇信息技術(shù)有限公司2。2。2。2采集管理對(duì)采集進(jìn)行管理主要包括:采集工程管理、運(yùn)行管理、超鏈接管理等幾個(gè)部分。采集工程管理,包括采集工程定義、工程參數(shù)設(shè)置管理等,詳細(xì)的采集工程定義與管理見采集子系統(tǒng)的功能概述部分.運(yùn)行管理,包括對(duì)系統(tǒng)的啟動(dòng)、停止及運(yùn)行狀態(tài)的監(jiān)視等運(yùn)行管理。對(duì)于采集系統(tǒng)的啟動(dòng)無須手工進(jìn)行啟動(dòng)或停止,可以通過下載中心自動(dòng)設(shè)置運(yùn)行時(shí)間間隔進(jìn)行自動(dòng)運(yùn)行或停止,同時(shí)進(jìn)行運(yùn)行狀態(tài)的監(jiān)視,系統(tǒng)出現(xiàn)運(yùn)行故障,會(huì)自動(dòng)進(jìn)行提示。詳細(xì)的運(yùn)行管理見采集子系統(tǒng)相關(guān)的功能概述部分。超鏈接管理,主要是對(duì)一些網(wǎng)頁(yè)死鏈或過期的網(wǎng)頁(yè)鏈接進(jìn)行管理,包括死鏈的刪除、修改等管理.在管理子系統(tǒng)中可以直接進(jìn)行相關(guān)操作。直接刪除或修復(fù)死鏈過濾詞典的管理與維護(hù):用戶定義過濾詞典,可以直接通過記事本進(jìn)行編輯,編輯完成后直接導(dǎo)入采集子系統(tǒng)中,用戶在設(shè)定采集工程時(shí)調(diào)用過濾詞典,系統(tǒng)會(huì)自動(dòng)根據(jù)過濾詞典進(jìn)行采集頁(yè)面過濾,如過濾含有黃色信息、反動(dòng)信息的頁(yè)面。

20浙江天宇信息技術(shù)有限公司2.2。2.3用戶管理(1)功能設(shè)計(jì)用戶管理。系統(tǒng)提供獨(dú)立于操作系統(tǒng)的用戶權(quán)限管理,用戶操作審計(jì)、分析與統(tǒng)計(jì),日志分析與統(tǒng)計(jì)等功能。系統(tǒng)允許最多管理30000個(gè)用戶,用戶根據(jù)實(shí)際需要可以自定義用戶數(shù).對(duì)于無須通過身份驗(yàn)證的普通檢索用戶,則通過訪客用戶可以直接訪問,共用一個(gè)檢索帳號(hào).用戶權(quán)限管理。系統(tǒng)允許用戶對(duì)不同的操作用戶定義不同的操作權(quán)限,并對(duì)用戶的操作進(jìn)行審計(jì),提高系統(tǒng)的安全性.(2)技術(shù)指標(biāo)s內(nèi)置的用戶權(quán)限管理體系、多級(jí)用戶管理;s靈活的用戶-數(shù)據(jù)庫(kù)授權(quán)機(jī)制;s數(shù)據(jù)庫(kù)管理、數(shù)據(jù)維護(hù)、系統(tǒng)管理、檢索各種權(quán)限分開,可以按需分配;s用戶分組管理;s數(shù)據(jù)庫(kù)檢索頻度統(tǒng)計(jì)、檢索詞頻統(tǒng)計(jì);s檢索日志和數(shù)據(jù)庫(kù)維護(hù)日志的管理。2。2。3檢索子系統(tǒng)功能及技術(shù)指標(biāo)2.2.3.1功能描述(1)通用全文檢索功能。系統(tǒng)提供全方位的全文檢索手段,支持多種檢索運(yùn)算符,包括外部特征與正文內(nèi)容的各種邏輯組合檢索,邏輯或、與非的檢索,符合通用搜索引擎使用習(xí)慣;多字段復(fù)合檢索、歷史檢索、相關(guān)詞擴(kuò)展檢索、分類導(dǎo)航檢索、中英文(字符)混合檢索,支持前方一致檢索、短語(yǔ)與句子檢索功能等。

21浙江天宇信息技術(shù)有限公司檢索子系統(tǒng)符合通用搜索引擎的使用習(xí)慣,支持搜索引擎搜索的絕大部分功能,并更適合與貼切政府部門政務(wù)內(nèi)網(wǎng)、政務(wù)公眾網(wǎng)檢索的需要。系統(tǒng)實(shí)現(xiàn)了采集與檢索分頻道處理,網(wǎng)頁(yè)標(biāo)題與內(nèi)容摘要的自動(dòng)提取與動(dòng)態(tài)生成,用戶通過關(guān)鍵詞檢索后,會(huì)在標(biāo)題和摘要中以高亮顯示,搜索結(jié)果分別按照標(biāo)題、摘要、內(nèi)容進(jìn)行類聚,并剔除重復(fù)性的內(nèi)容,并支持對(duì)檢索結(jié)果按模版顯示及網(wǎng)頁(yè)原樣進(jìn)行顯示;用戶需要查看所檢索的信息在網(wǎng)頁(yè)中所在的位置,可以通過存儲(chǔ)在搜索引擎庫(kù)中的網(wǎng)頁(yè)快照進(jìn)行瀏覽;對(duì)于網(wǎng)頁(yè)附件(DOC、XLS、TXT、PDF),存儲(chǔ)在網(wǎng)頁(yè)的可查詢附件字段中,系統(tǒng)自動(dòng)建立索引,可以進(jìn)行全文檢索;系統(tǒng)實(shí)現(xiàn)了對(duì)中文、英文、中英文、德文、法文等西文進(jìn)行單獨(dú)檢索與混合檢索,并具有100%的查全率與極高的查準(zhǔn)率。支持邏輯組合檢索,符合搜索引擎使用習(xí)慣檢索關(guān)鍵詞在標(biāo)題和摘要中高亮顯示網(wǎng)頁(yè)檢索動(dòng)態(tài)摘要自動(dòng)生成檢索結(jié)果按標(biāo)題、內(nèi)容進(jìn)行類聚,網(wǎng)頁(yè)標(biāo)題自動(dòng)提取模糊檢索、距離檢索

22浙江天宇信息技術(shù)有限公司(2)智能全文檢索功能。系統(tǒng)提供基于知識(shí)或同義詞典的擴(kuò)展檢索功能,能夠滿足特殊應(yīng)用領(lǐng)域的高查準(zhǔn)率和高查全率的要求,詞典可維護(hù);支持對(duì)檢索結(jié)果的各種排序:對(duì)檢索結(jié)果可按與檢索表達(dá)式的相關(guān)性和重要性程度排序、基于時(shí)間字段的排序、后進(jìn)先出的快速排序等;系統(tǒng)支持二次檢索及任意多次漸進(jìn)檢索、模糊檢索、距離檢索、多條件組合檢索(包括標(biāo)題、正文、日期范圍)等.二次檢索(支持任意次漸進(jìn)檢索)任意詞、短語(yǔ)與語(yǔ)句的全匹配檢索網(wǎng)頁(yè)快照檢索內(nèi)容的高亮顯示

23浙江天宇信息技術(shù)有限公司2.2。3。2技術(shù)參數(shù)指標(biāo)s支持中英文多語(yǔ)種混合檢索;s支持外部特征字段快速值集提取(詞、拼音、筆畫等簡(jiǎn)便的輸入幫助功能);s允許使用文中出現(xiàn)的字、詞、片段、句子進(jìn)行檢索;s提供多種檢索手段:各種邏輯組合檢索、二次檢索、漸進(jìn)檢索、內(nèi)容關(guān)聯(lián)檢索、相關(guān)詞擴(kuò)檢;s優(yōu)化的檢索策略和多線程并發(fā)檢索機(jī)制,單機(jī)支持不低于50個(gè)并發(fā)檢索請(qǐng)求;s獨(dú)創(chuàng)的多種關(guān)聯(lián)檢索手段:外部關(guān)聯(lián)、特征關(guān)聯(lián)、詞典關(guān)聯(lián),基于內(nèi)容聯(lián)想的橫向關(guān)聯(lián);s支持檢索結(jié)果的多種定制手段;s提供分類字段,支持分頻道進(jìn)行瀏覽和檢索。2.2.4系統(tǒng)性能指標(biāo)s查詞速度:在1G(100萬(wàn)條左右)的原始信息平均查詢時(shí)間少于1秒;s聯(lián)庫(kù)檢索:同時(shí)打開500個(gè)數(shù)據(jù)庫(kù)檢索;s并發(fā)數(shù):單機(jī)支持100個(gè)并發(fā)檢索請(qǐng)求,具體視服務(wù)器性能而定;

24浙江天宇信息技術(shù)有限公司s允許跨255個(gè)站點(diǎn)的數(shù)據(jù)庫(kù)服務(wù)器分布式檢索等。2。4安全方案檢索代理:通過檢索代理服務(wù)器對(duì)數(shù)據(jù)進(jìn)行訪問,檢索用戶只能訪問到檢索代理服務(wù)器,無法進(jìn)入數(shù)據(jù)庫(kù)服務(wù)器,在數(shù)據(jù)庫(kù)服務(wù)(內(nèi)部網(wǎng))前設(shè)置了一個(gè)“堡壘型"防火墻,拒絕黑客進(jìn)入數(shù)據(jù)庫(kù)服務(wù)器和局域網(wǎng),增加網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的安全性.用戶操作審計(jì):審計(jì)的記錄保存在數(shù)據(jù)庫(kù)中,并提供審計(jì)記錄的查詢、瀏覽、打印、統(tǒng)計(jì)等功能。用戶操作審計(jì)記錄的記錄項(xiàng)主要有:用戶的標(biāo)識(shí)、用戶的名稱、操作時(shí)間、操作類別、數(shù)據(jù)庫(kù)標(biāo)識(shí)、數(shù)據(jù)庫(kù)名稱、操作的文獻(xiàn)的標(biāo)題、文獻(xiàn)的字節(jié)數(shù)、其它關(guān)聯(lián)信息等;通過審計(jì)記錄查詢數(shù)據(jù)庫(kù)中的內(nèi)容被用戶操作(包括瀏覽)的情況。獨(dú)立于操作系統(tǒng)的用戶管理、身份驗(yàn)證機(jī)制;提供系統(tǒng)、數(shù)據(jù)庫(kù)、記錄級(jí)字段安全控制;用戶使用信息資源的授權(quán)機(jī)制、用戶文獻(xiàn)存取數(shù)量控制;用戶使用IP地址限制;數(shù)據(jù)操作審計(jì)和日志功能,控制臺(tái)運(yùn)行日志和故障分析工具;用戶每次查詢登錄曰期、時(shí)間、登錄IP地址、檢索用時(shí)、檢索次數(shù)、下載信息的情況具備分析、統(tǒng)計(jì)等功能。

25浙江天宇信息技術(shù)有限公司

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。
關(guān)閉