主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究

主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究

ID:9671393

大?。?9.00 KB

頁(yè)數(shù):2頁(yè)

時(shí)間:2018-05-05

主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究_第1頁(yè)
主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究_第2頁(yè)
資源描述:

《主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)

1、主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究  一、引言  信息時(shí)代的發(fā)展,讓越來越多的高新技術(shù)應(yīng)用到網(wǎng)絡(luò)中去。隨著網(wǎng)絡(luò)信息數(shù)據(jù)的海量增長(zhǎng),傳統(tǒng)的搜索引擎功能已與當(dāng)前人們多元化的信息需求不匹配,人們對(duì)于搜索引擎的要求更加細(xì)致、精確,傳統(tǒng)的搜索引擎已無法滿足人們個(gè)性化信息檢索服務(wù)的需求[1]。近年來,主題型搜索引擎應(yīng)運(yùn)而生。所謂主題型搜索引擎,就是以構(gòu)筑某一專題領(lǐng)域或?qū)W科領(lǐng)域的因特網(wǎng)信息資源庫(kù)為目標(biāo),智能地在互聯(lián)網(wǎng)上搜集符合設(shè)定專題或滿足學(xué)科需要的信息資源[2]。在主題搜

2、索引擎的研究中,網(wǎng)絡(luò)爬蟲搜索策略主要研究以何種搜索策略訪問.收集整理爬蟲有效地實(shí)現(xiàn)網(wǎng)頁(yè)信息的讀取,讓用戶及時(shí)獲得所需要的信息?! 《⒕W(wǎng)絡(luò)爬蟲的概念  網(wǎng)絡(luò)爬蟲的概念有廣義和狹義之分。狹義上的概念是指根據(jù)超鏈接和WEB文檔檢索萬維網(wǎng)信息空間;廣義上的概念是利用標(biāo)準(zhǔn)的HTTP協(xié)議檢索Web文檔,使用HTTP協(xié)議的軟件稱之為網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲能夠自動(dòng)提取網(wǎng)頁(yè)??程序,能夠從萬維網(wǎng)搜索引擎下載網(wǎng)頁(yè),是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲不依靠用戶干預(yù),即可實(shí)現(xiàn)自動(dòng)爬行搜索。  三、聚焦搜索策略  網(wǎng)絡(luò)爬蟲的

3、主題搜索引擎能夠獲取到的網(wǎng)頁(yè)一般要多于100萬面,同時(shí)獲取網(wǎng)頁(yè)用時(shí)較長(zhǎng),有時(shí)需要等待十秒以上的時(shí)間。隨著人們對(duì)于搜索要求的提高,這些通用搜索引擎與人們的要求不相適應(yīng)。因此,出現(xiàn)了聚焦爬蟲策略,能夠定向的獲取主題網(wǎng)頁(yè),只挑出所需的特定主題頁(yè)面來進(jìn)行定向訪問,圖1即可顯示聚焦爬蟲的應(yīng)用策略及規(guī)則。  圖1聚焦搜索策略  聚焦爬蟲給下載頁(yè)面分配一個(gè)分?jǐn)?shù),然后根據(jù)得分排序,放入到確定的隊(duì)列中去。通過隊(duì)列對(duì)頁(yè)面進(jìn)行分析,以尋找最佳的頁(yè)面。網(wǎng)絡(luò)爬蟲搜索策略的關(guān)鍵是如何評(píng)價(jià)鏈接,以顯示鏈接的重要性,從而確定不同

4、的主題搜索策略。聚焦搜索策略主要包括基于內(nèi)容評(píng)價(jià)的搜索策略、基于鏈接結(jié)構(gòu)評(píng)價(jià)的搜索策略、基于鞏固學(xué)習(xí)的聚焦搜索策略和基于語(yǔ)境圖的聚焦搜索策略?;陟柟虒W(xué)習(xí)的聚焦搜索策略,是在強(qiáng)化學(xué)習(xí)的模型中,通過幾個(gè)不相關(guān)頁(yè)面的訪問,獲得主題頁(yè)面的模式。把獲得的主題相關(guān)頁(yè)面稱為未來的回報(bào),未來回報(bào)的預(yù)測(cè)值表示未來回報(bào)的價(jià)值,用Q值來表示。這種方法的核心是要學(xué)會(huì)如何計(jì)算鏈路的Q值,根據(jù)未來的返回值,確定主題搜索目標(biāo)的正確性?;谡Z(yǔ)境圖的聚焦搜索策略,能夠構(gòu)建出WEB的語(yǔ)境圖,來估算與目標(biāo)頁(yè)面的距離。但這種方式有一定

5、的局限性,不能夠表現(xiàn)出客觀的WEB結(jié)構(gòu)?! ∷?、寬度和深度優(yōu)先搜索策略  搜索引擎所用的第一代網(wǎng)絡(luò)爬蟲主要是基于傳統(tǒng)的圖算法,如寬度優(yōu)先或深度優(yōu)先算法來索引整個(gè)Web,一個(gè)核心的URL集被用來作為一個(gè)種子集合,這種算法超的最終的目標(biāo)是跟蹤覆蓋整個(gè)Web。這種策略通常用在通用搜索引擎中,因?yàn)橥ㄓ盟阉饕娅@得的網(wǎng)頁(yè)越多越好,沒有特定的要求.如圖2所示?! D2傳統(tǒng)的圖算法  網(wǎng)絡(luò)爬蟲的搜索引擎主要是基于傳統(tǒng)的圖算法,通過索引整個(gè)Web,由一個(gè)核心的URL集被用來作為種子集合,算法遞歸地跟蹤超鏈接到其他

6、的頁(yè)面,在運(yùn)行中,通常不需要顧及頁(yè)面的具體內(nèi)容,因?yàn)樽罱K的目標(biāo)是要在整個(gè)WEB中實(shí)施跟蹤策略,覆蓋面通常是用在一般的搜索引擎中,因?qū)σ话愕木W(wǎng)頁(yè)搜索引擎的要求是能夠盡可能多的獲得返回的頁(yè)面,而沒有相應(yīng)的主題的要求,如圖2為傳統(tǒng)的圖算法。其主要的方法包括寬度優(yōu)先搜索算法和深度優(yōu)先算法。在進(jìn)行Web主題信息提取的實(shí)施過程中,所提取的URL已經(jīng)通過了主題相關(guān)性判別。盡管如此,所提取的頁(yè)面內(nèi)容還是可能與設(shè)定的主題相差甚遠(yuǎn)。這種現(xiàn)象將影響主題頁(yè)面信息的提取準(zhǔn)確率。因此,在頁(yè)面提取之后,需要對(duì)頁(yè)面進(jìn)行主題相關(guān)性

7、判別,以濾掉主題無關(guān)頁(yè)面。深度優(yōu)先搜索所遵循的搜索策略是盡可能深地搜索圖。搜索的過程一直進(jìn)行到所有節(jié)點(diǎn)已發(fā)現(xiàn)并確定源節(jié)點(diǎn)是否是最新的。如果還有未被發(fā)現(xiàn)的節(jié)點(diǎn),然后選擇源節(jié)點(diǎn)之一,并重復(fù)上述過程,直到所有的節(jié)點(diǎn)都被發(fā)現(xiàn)?! ∥濉⑿〗Y(jié)  隨著人們對(duì)個(gè)性化信息檢索服務(wù)需求的日益增長(zhǎng),面向主題的搜索引擎應(yīng)運(yùn)而生。在主題搜索引擎中,網(wǎng)絡(luò)爬蟲以何種策略訪問Web能提高搜索效率,是近年來主題搜索引擎研究中的主要問題之一。面對(duì)人們?cè)絹碓礁叩男畔z索要求,各種專業(yè)主題搜索引擎應(yīng)運(yùn)而生,以滿足不同用戶群體的個(gè)性化需求

8、?;谥黝}的采集的核心問題就是采集時(shí)向主題頁(yè)面群的引導(dǎo)和對(duì)無關(guān)頁(yè)面的過濾問題,需要進(jìn)一步研究出新算法。

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。