主題爬蟲的搜索策略研究

主題爬蟲的搜索策略研究

ID:44040012

大?。?1.50 KB

頁數(shù):16頁

時(shí)間:2019-10-18

主題爬蟲的搜索策略研究_第1頁
主題爬蟲的搜索策略研究_第2頁
主題爬蟲的搜索策略研究_第3頁
主題爬蟲的搜索策略研究_第4頁
主題爬蟲的搜索策略研究_第5頁
資源描述:

《主題爬蟲的搜索策略研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、主題爬蟲的搜索策略研究第29卷第12期Vol.29No.12計(jì)算機(jī)工程與設(shè)計(jì)ComputerEngineeringandDesign2008年6月June2008劉漢興,劉財(cái)興(華南農(nóng)業(yè)大學(xué)信息學(xué)院,廣東廣州510642)摘要:主題爬蟲收集主題相關(guān)信息時(shí),需要評(píng)價(jià)網(wǎng)頁的主題相關(guān)度,并優(yōu)先爬取相關(guān)度較高的網(wǎng)頁,在決定了搜索路徑的同時(shí)也決定了主題爬蟲的搜索效率。針對(duì)不同的網(wǎng)頁評(píng)價(jià)算法,對(duì)現(xiàn)有的主題爬蟲的搜索策略進(jìn)行分類,指出了各類搜索策略的特點(diǎn)和優(yōu)缺點(diǎn),總結(jié)了能夠提高主題爬蟲搜索效率的幾方面內(nèi)容。關(guān)鍵詞:主題爬蟲;搜索策略;頁面評(píng)價(jià);搜索

2、引擎;優(yōu)化中圖法分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-7024(2008)12-3160-03SurveyonsearchingstrategiesoffocusedcrawlerLIUHan-xing,LlUCai-xing(Collegeoflnformatics^outhChinaAgriculturalUniversity,Guangzhou510642,China)Abstract:WhilefocusedCrawlercollectinformation,itneedstoevaluatetherelevan

3、ceofwebpages,andprocessfirstlypageswhichhavehigherrelevance,thusdecidingthesearchpathandefficiencyofcrawler.Webcrawler'ssearchingst「ategiesbasedonthewaytheyevaluatethewebpageiscategorized.Thecharacterofeachclassofsearchingstrategyisdescribedandtheadvantageanddisadva

4、ntageisdiscussed,severalwaystoimprovingtheefficiencyofwebcrawlersaresummedup.Keywords:focusedcrawler;searchingstrategy;pageevaluating;searchengine;optimization鏈接)出發(fā),下載頁面并提取其中的子鏈接,然后再訪問子鏈接對(duì)應(yīng)的內(nèi)容,如此不斷重復(fù)即可實(shí)現(xiàn)遍歷Web信息。網(wǎng)絡(luò)爬蟲的搜索策略與搜索引擎的性質(zhì)和任務(wù)密切相關(guān)[5],為了獲得較高的Web覆蓋率,通用搜索引擎網(wǎng)絡(luò)爬蟲通常采用圖的遍

5、歷算法搜索Web,如圖1(a)所示,其中白框代表主體無關(guān)頁面,黑框代表主體相關(guān)頁面,虛線代表鏈接,實(shí)箭頭代表訪問順序)。主題搜索引擎索引的內(nèi)容只限于特定主題或?qū)iT領(lǐng)域,因而在搜索的過程中無須對(duì)整個(gè)Web進(jìn)行遍歷,如圖2(b)所示,它只需選擇與主題頁面相關(guān)的頁面進(jìn)行訪問。網(wǎng)絡(luò)爬蟲對(duì)網(wǎng)頁的抓収策略分為廣度優(yōu)先和最佳優(yōu)先兩種,主題爬蟲主要采用后者[1-2]o廣度優(yōu)先能較快找到高質(zhì)量的網(wǎng)頁,同時(shí)頁面覆蓋率較高,但隨著爬蟲“爬行”的深入,抓取頁面的相關(guān)度也隨之降低。最佳優(yōu)先策略的基本思想是按照一定的網(wǎng)頁評(píng)價(jià)算法,計(jì)算網(wǎng)頁與主題的相關(guān)性,選取“價(jià)

6、值”最高的網(wǎng)頁中的鏈接進(jìn)行抓取。因此,如何評(píng)價(jià)頁面價(jià)值成為研究主題爬蟲搜索策略的關(guān)鍵。0引言目前的谷歌、百度等搜索引擎,自動(dòng)搜集整理互聯(lián)網(wǎng)上的信息,為一般用戶提供檢索服務(wù),可以稱為通用搜索引擎。但對(duì)于專業(yè)用戶及研究人員來說,他們的查詢往往是針對(duì)某個(gè)領(lǐng)域或曲向特定主題,使用通用搜索引擎進(jìn)行檢索效果不理想,準(zhǔn)確率和召回率都很低,因此就出現(xiàn)了主題搜索引擎(topic-specificsearchengine,又稱專業(yè)搜索引擎)。網(wǎng)絡(luò)爬蟲(Crawler,或Spider程序)是一個(gè)自動(dòng)下載Web網(wǎng)頁的程序,是搜索引擎的基礎(chǔ)與核心。主題搜索引擎

7、中的主題爬蟲,首先需要定義“主題概念”,明確“主題”的范圍和內(nèi)容,即對(duì)“主題”進(jìn)行描述或定義。主題概念可以用主題詞集來表示,也可以表示為示例文檔(由用戶選定的種子樣本),也可來源于某一領(lǐng)域概念。主題爬蟲在工作時(shí),只抓取與主題相關(guān)的網(wǎng)頁或內(nèi)容。為了保證采集到的信息的主題相關(guān)性,以何種策略來決定訪問Web的搜索路徑,是主題爬蟲研究的焦點(diǎn)[1-4]o該文根據(jù)網(wǎng)頁評(píng)價(jià)算法的不同,對(duì)比分析了主題爬蟲的幾種搜索策略,總結(jié)了提高主題爬蟲搜索效率的幾個(gè)方面。2網(wǎng)頁評(píng)價(jià)算法研究Web±的頁面分布表面看似雜亂無章,但主題頁面的分1主題爬蟲的工作原理(種子

8、網(wǎng)絡(luò)爬蟲在采集Web信息時(shí),通常從一個(gè)“種子集”布卻有一定的規(guī)律,可總結(jié)為4個(gè)特征[3,6,10]:①站點(diǎn)主題特征,收稿日期:2007-06-25E-mail:Iiuhx666@21cn.com基金項(xiàng)目:國(guó)家863高技術(shù)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。