資源描述:
《主題爬蟲的搜索策略研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、主題爬蟲的搜索策略研究第29卷第12期Vol.29No.12計(jì)算機(jī)工程與設(shè)計(jì)ComputerEngineeringandDesign2008年6月June2008劉漢興,劉財(cái)興(華南農(nóng)業(yè)大學(xué)信息學(xué)院,廣東廣州510642)摘要:主題爬蟲收集主題相關(guān)信息時(shí),需要評(píng)價(jià)網(wǎng)頁的主題相關(guān)度,并優(yōu)先爬取相關(guān)度較高的網(wǎng)頁,在決定了搜索路徑的同時(shí)也決定了主題爬蟲的搜索效率。針對(duì)不同的網(wǎng)頁評(píng)價(jià)算法,對(duì)現(xiàn)有的主題爬蟲的搜索策略進(jìn)行分類,指出了各類搜索策略的特點(diǎn)和優(yōu)缺點(diǎn),總結(jié)了能夠提高主題爬蟲搜索效率的幾方面內(nèi)容。關(guān)鍵詞:主題爬蟲;搜索策略;頁面評(píng)價(jià);搜索
2、引擎;優(yōu)化中圖法分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-7024(2008)12-3160-03SurveyonsearchingstrategiesoffocusedcrawlerLIUHan-xing,LlUCai-xing(Collegeoflnformatics^outhChinaAgriculturalUniversity,Guangzhou510642,China)Abstract:WhilefocusedCrawlercollectinformation,itneedstoevaluatetherelevan
3、ceofwebpages,andprocessfirstlypageswhichhavehigherrelevance,thusdecidingthesearchpathandefficiencyofcrawler.Webcrawler'ssearchingst「ategiesbasedonthewaytheyevaluatethewebpageiscategorized.Thecharacterofeachclassofsearchingstrategyisdescribedandtheadvantageanddisadva
4、ntageisdiscussed,severalwaystoimprovingtheefficiencyofwebcrawlersaresummedup.Keywords:focusedcrawler;searchingstrategy;pageevaluating;searchengine;optimization鏈接)出發(fā),下載頁面并提取其中的子鏈接,然后再訪問子鏈接對(duì)應(yīng)的內(nèi)容,如此不斷重復(fù)即可實(shí)現(xiàn)遍歷Web信息。網(wǎng)絡(luò)爬蟲的搜索策略與搜索引擎的性質(zhì)和任務(wù)密切相關(guān)[5],為了獲得較高的Web覆蓋率,通用搜索引擎網(wǎng)絡(luò)爬蟲通常采用圖的遍
5、歷算法搜索Web,如圖1(a)所示,其中白框代表主體無關(guān)頁面,黑框代表主體相關(guān)頁面,虛線代表鏈接,實(shí)箭頭代表訪問順序)。主題搜索引擎索引的內(nèi)容只限于特定主題或?qū)iT領(lǐng)域,因而在搜索的過程中無須對(duì)整個(gè)Web進(jìn)行遍歷,如圖2(b)所示,它只需選擇與主題頁面相關(guān)的頁面進(jìn)行訪問。網(wǎng)絡(luò)爬蟲對(duì)網(wǎng)頁的抓収策略分為廣度優(yōu)先和最佳優(yōu)先兩種,主題爬蟲主要采用后者[1-2]o廣度優(yōu)先能較快找到高質(zhì)量的網(wǎng)頁,同時(shí)頁面覆蓋率較高,但隨著爬蟲“爬行”的深入,抓取頁面的相關(guān)度也隨之降低。最佳優(yōu)先策略的基本思想是按照一定的網(wǎng)頁評(píng)價(jià)算法,計(jì)算網(wǎng)頁與主題的相關(guān)性,選取“價(jià)
6、值”最高的網(wǎng)頁中的鏈接進(jìn)行抓取。因此,如何評(píng)價(jià)頁面價(jià)值成為研究主題爬蟲搜索策略的關(guān)鍵。0引言目前的谷歌、百度等搜索引擎,自動(dòng)搜集整理互聯(lián)網(wǎng)上的信息,為一般用戶提供檢索服務(wù),可以稱為通用搜索引擎。但對(duì)于專業(yè)用戶及研究人員來說,他們的查詢往往是針對(duì)某個(gè)領(lǐng)域或曲向特定主題,使用通用搜索引擎進(jìn)行檢索效果不理想,準(zhǔn)確率和召回率都很低,因此就出現(xiàn)了主題搜索引擎(topic-specificsearchengine,又稱專業(yè)搜索引擎)。網(wǎng)絡(luò)爬蟲(Crawler,或Spider程序)是一個(gè)自動(dòng)下載Web網(wǎng)頁的程序,是搜索引擎的基礎(chǔ)與核心。主題搜索引擎
7、中的主題爬蟲,首先需要定義“主題概念”,明確“主題”的范圍和內(nèi)容,即對(duì)“主題”進(jìn)行描述或定義。主題概念可以用主題詞集來表示,也可以表示為示例文檔(由用戶選定的種子樣本),也可來源于某一領(lǐng)域概念。主題爬蟲在工作時(shí),只抓取與主題相關(guān)的網(wǎng)頁或內(nèi)容。為了保證采集到的信息的主題相關(guān)性,以何種策略來決定訪問Web的搜索路徑,是主題爬蟲研究的焦點(diǎn)[1-4]o該文根據(jù)網(wǎng)頁評(píng)價(jià)算法的不同,對(duì)比分析了主題爬蟲的幾種搜索策略,總結(jié)了提高主題爬蟲搜索效率的幾個(gè)方面。2網(wǎng)頁評(píng)價(jià)算法研究Web±的頁面分布表面看似雜亂無章,但主題頁面的分1主題爬蟲的工作原理(種子
8、網(wǎng)絡(luò)爬蟲在采集Web信息時(shí),通常從一個(gè)“種子集”布卻有一定的規(guī)律,可總結(jié)為4個(gè)特征[3,6,10]:①站點(diǎn)主題特征,收稿日期:2007-06-25E-mail:Iiuhx666@21cn.com基金項(xiàng)目:國(guó)家863高技術(shù)