主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究

ID：9671393

大?。?9.00 KB

頁(yè)數(shù)：2頁(yè)

時(shí)間：2018-05-05

資源描述：

《主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究　　一、引言　　信息時(shí)代的發(fā)展，讓越來越多的高新技術(shù)應(yīng)用到網(wǎng)絡(luò)中去。隨著網(wǎng)絡(luò)信息數(shù)據(jù)的海量增長(zhǎng)，傳統(tǒng)的搜索引擎功能已與當(dāng)前人們多元化的信息需求不匹配，人們對(duì)于搜索引擎的要求更加細(xì)致、精確，傳統(tǒng)的搜索引擎已無法滿足人們個(gè)性化信息檢索服務(wù)的需求[1]。近年來，主題型搜索引擎應(yīng)運(yùn)而生。所謂主題型搜索引擎，就是以構(gòu)筑某一專題領(lǐng)域或?qū)W科領(lǐng)域的因特網(wǎng)信息資源庫(kù)為目標(biāo)，智能地在互聯(lián)網(wǎng)上搜集符合設(shè)定專題或滿足學(xué)科需要的信息資源[2]。在主題搜

2、索引擎的研究中，網(wǎng)絡(luò)爬蟲搜索策略主要研究以何種搜索策略訪問.收集整理爬蟲有效地實(shí)現(xiàn)網(wǎng)頁(yè)信息的讀取，讓用戶及時(shí)獲得所需要的信息?！　《⒕W(wǎng)絡(luò)爬蟲的概念　　網(wǎng)絡(luò)爬蟲的概念有廣義和狹義之分。狹義上的概念是指根據(jù)超鏈接和WEB文檔檢索萬維網(wǎng)信息空間；廣義上的概念是利用標(biāo)準(zhǔn)的HTTP協(xié)議檢索Web文檔，使用HTTP協(xié)議的軟件稱之為網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲能夠自動(dòng)提取網(wǎng)頁(yè)??程序，能夠從萬維網(wǎng)搜索引擎下載網(wǎng)頁(yè)，是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲不依靠用戶干預(yù)，即可實(shí)現(xiàn)自動(dòng)爬行搜索。　　三、聚焦搜索策略　　網(wǎng)絡(luò)爬蟲的

3、主題搜索引擎能夠獲取到的網(wǎng)頁(yè)一般要多于100萬面，同時(shí)獲取網(wǎng)頁(yè)用時(shí)較長(zhǎng)，有時(shí)需要等待十秒以上的時(shí)間。隨著人們對(duì)于搜索要求的提高，這些通用搜索引擎與人們的要求不相適應(yīng)。因此，出現(xiàn)了聚焦爬蟲策略，能夠定向的獲取主題網(wǎng)頁(yè)，只挑出所需的特定主題頁(yè)面來進(jìn)行定向訪問，圖1即可顯示聚焦爬蟲的應(yīng)用策略及規(guī)則。　　圖1聚焦搜索策略　　聚焦爬蟲給下載頁(yè)面分配一個(gè)分?jǐn)?shù)，然后根據(jù)得分排序，放入到確定的隊(duì)列中去。通過隊(duì)列對(duì)頁(yè)面進(jìn)行分析，以尋找最佳的頁(yè)面。網(wǎng)絡(luò)爬蟲搜索策略的關(guān)鍵是如何評(píng)價(jià)鏈接，以顯示鏈接的重要性，從而確定不同

4、的主題搜索策略。聚焦搜索策略主要包括基于內(nèi)容評(píng)價(jià)的搜索策略、基于鏈接結(jié)構(gòu)評(píng)價(jià)的搜索策略、基于鞏固學(xué)習(xí)的聚焦搜索策略和基于語(yǔ)境圖的聚焦搜索策略?；陟柟虒W(xué)習(xí)的聚焦搜索策略，是在強(qiáng)化學(xué)習(xí)的模型中，通過幾個(gè)不相關(guān)頁(yè)面的訪問，獲得主題頁(yè)面的模式。把獲得的主題相關(guān)頁(yè)面稱為未來的回報(bào)，未來回報(bào)的預(yù)測(cè)值表示未來回報(bào)的價(jià)值，用Q值來表示。這種方法的核心是要學(xué)會(huì)如何計(jì)算鏈路的Q值，根據(jù)未來的返回值，確定主題搜索目標(biāo)的正確性?；谡Z(yǔ)境圖的聚焦搜索策略，能夠構(gòu)建出WEB的語(yǔ)境圖，來估算與目標(biāo)頁(yè)面的距離。但這種方式有一定

5、的局限性，不能夠表現(xiàn)出客觀的WEB結(jié)構(gòu)?！　∷?、寬度和深度優(yōu)先搜索策略　　搜索引擎所用的第一代網(wǎng)絡(luò)爬蟲主要是基于傳統(tǒng)的圖算法，如寬度優(yōu)先或深度優(yōu)先算法來索引整個(gè)Web，一個(gè)核心的URL集被用來作為一個(gè)種子集合，這種算法超的最終的目標(biāo)是跟蹤覆蓋整個(gè)Web。這種策略通常用在通用搜索引擎中，因?yàn)橥ㄓ盟阉饕娅@得的網(wǎng)頁(yè)越多越好，沒有特定的要求.如圖2所示?！　D2傳統(tǒng)的圖算法　　網(wǎng)絡(luò)爬蟲的搜索引擎主要是基于傳統(tǒng)的圖算法，通過索引整個(gè)Web，由一個(gè)核心的URL集被用來作為種子集合，算法遞歸地跟蹤超鏈接到其他

6、的頁(yè)面，在運(yùn)行中，通常不需要顧及頁(yè)面的具體內(nèi)容，因?yàn)樽罱K的目標(biāo)是要在整個(gè)WEB中實(shí)施跟蹤策略，覆蓋面通常是用在一般的搜索引擎中，因?qū)σ话愕木W(wǎng)頁(yè)搜索引擎的要求是能夠盡可能多的獲得返回的頁(yè)面，而沒有相應(yīng)的主題的要求，如圖2為傳統(tǒng)的圖算法。其主要的方法包括寬度優(yōu)先搜索算法和深度優(yōu)先算法。在進(jìn)行Web主題信息提取的實(shí)施過程中，所提取的URL已經(jīng)通過了主題相關(guān)性判別。盡管如此，所提取的頁(yè)面內(nèi)容還是可能與設(shè)定的主題相差甚遠(yuǎn)。這種現(xiàn)象將影響主題頁(yè)面信息的提取準(zhǔn)確率。因此，在頁(yè)面提取之后，需要對(duì)頁(yè)面進(jìn)行主題相關(guān)性

7、判別，以濾掉主題無關(guān)頁(yè)面。深度優(yōu)先搜索所遵循的搜索策略是盡可能深地搜索圖。搜索的過程一直進(jìn)行到所有節(jié)點(diǎn)已發(fā)現(xiàn)并確定源節(jié)點(diǎn)是否是最新的。如果還有未被發(fā)現(xiàn)的節(jié)點(diǎn)，然后選擇源節(jié)點(diǎn)之一，并重復(fù)上述過程，直到所有的節(jié)點(diǎn)都被發(fā)現(xiàn)?！　∥濉⑿〗Y(jié)　　隨著人們對(duì)個(gè)性化信息檢索服務(wù)需求的日益增長(zhǎng)，面向主題的搜索引擎應(yīng)運(yùn)而生。在主題搜索引擎中，網(wǎng)絡(luò)爬蟲以何種策略訪問Web能提高搜索效率，是近年來主題搜索引擎研究中的主要問題之一。面對(duì)人們?cè)絹碓礁叩男畔z索要求，各種專業(yè)主題搜索引擎應(yīng)運(yùn)而生，以滿足不同用戶群體的個(gè)性化需求

8、?；谥黝}的采集的核心問題就是采集時(shí)向主題頁(yè)面群的引導(dǎo)和對(duì)無關(guān)頁(yè)面的過濾問題，需要進(jìn)一步研究出新算法。

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 / 2



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究

主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究

相關(guān)文章

相關(guān)標(biāo)簽