主題爬蟲的搜索策略研究

ID：44040012

大小：71.50 KB

頁數(shù)：16頁

時(shí)間：2019-10-18

資源描述：

《主題爬蟲的搜索策略研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、主題爬蟲的搜索策略研究第29卷第12期Vol.29No.12計(jì)算機(jī)工程與設(shè)計(jì)ComputerEngineeringandDesign2008年6月June2008劉漢興，劉財(cái)興(華南農(nóng)業(yè)大學(xué)信息學(xué)院，廣東廣州510642)摘要：主題爬蟲收集主題相關(guān)信息時(shí)，需要評(píng)價(jià)網(wǎng)頁的主題相關(guān)度，并優(yōu)先爬取相關(guān)度較高的網(wǎng)頁，在決定了搜索路徑的同時(shí)也決定了主題爬蟲的搜索效率。針對(duì)不同的網(wǎng)頁評(píng)價(jià)算法，對(duì)現(xiàn)有的主題爬蟲的搜索策略進(jìn)行分類，指出了各類搜索策略的特點(diǎn)和優(yōu)缺點(diǎn)，總結(jié)了能夠提高主題爬蟲搜索效率的幾方面內(nèi)容。關(guān)鍵詞：主題爬蟲;搜索策略;頁面評(píng)價(jià);搜索

2、引擎;優(yōu)化中圖法分類號(hào)：TP391文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1000-7024(2008)12-3160-03SurveyonsearchingstrategiesoffocusedcrawlerLIUHan-xing,LlUCai-xing(Collegeoflnformatics^outhChinaAgriculturalUniversity,Guangzhou510642,China)Abstract：WhilefocusedCrawlercollectinformation,itneedstoevaluatetherelevan

3、ceofwebpages,andprocessfirstlypageswhichhavehigherrelevance,thusdecidingthesearchpathandefficiencyofcrawler.Webcrawler'ssearchingst「ategiesbasedonthewaytheyevaluatethewebpageiscategorized.Thecharacterofeachclassofsearchingstrategyisdescribedandtheadvantageanddisadva

4、ntageisdiscussed,severalwaystoimprovingtheefficiencyofwebcrawlersaresummedup.Keywords：focusedcrawler;searchingstrategy;pageevaluating;searchengine;optimization鏈接)出發(fā)，下載頁面并提取其中的子鏈接，然后再訪問子鏈接對(duì)應(yīng)的內(nèi)容，如此不斷重復(fù)即可實(shí)現(xiàn)遍歷Web信息。網(wǎng)絡(luò)爬蟲的搜索策略與搜索引擎的性質(zhì)和任務(wù)密切相關(guān)[5],為了獲得較高的Web覆蓋率，通用搜索引擎網(wǎng)絡(luò)爬蟲通常采用圖的遍

5、歷算法搜索Web,如圖1(a)所示，其中白框代表主體無關(guān)頁面，黑框代表主體相關(guān)頁面，虛線代表鏈接，實(shí)箭頭代表訪問順序)。主題搜索引擎索引的內(nèi)容只限于特定主題或?qū)ｉT領(lǐng)域，因而在搜索的過程中無須對(duì)整個(gè)Web進(jìn)行遍歷，如圖2(b)所示，它只需選擇與主題頁面相關(guān)的頁面進(jìn)行訪問。網(wǎng)絡(luò)爬蟲對(duì)網(wǎng)頁的抓収策略分為廣度優(yōu)先和最佳優(yōu)先兩種，主題爬蟲主要采用后者[1-2]o廣度優(yōu)先能較快找到高質(zhì)量的網(wǎng)頁，同時(shí)頁面覆蓋率較高，但隨著爬蟲“爬行”的深入，抓取頁面的相關(guān)度也隨之降低。最佳優(yōu)先策略的基本思想是按照一定的網(wǎng)頁評(píng)價(jià)算法，計(jì)算網(wǎng)頁與主題的相關(guān)性，選取“價(jià)

6、值”最高的網(wǎng)頁中的鏈接進(jìn)行抓取。因此，如何評(píng)價(jià)頁面價(jià)值成為研究主題爬蟲搜索策略的關(guān)鍵。0引言目前的谷歌、百度等搜索引擎，自動(dòng)搜集整理互聯(lián)網(wǎng)上的信息，為一般用戶提供檢索服務(wù)，可以稱為通用搜索引擎。但對(duì)于專業(yè)用戶及研究人員來說，他們的查詢往往是針對(duì)某個(gè)領(lǐng)域或曲向特定主題，使用通用搜索引擎進(jìn)行檢索效果不理想，準(zhǔn)確率和召回率都很低，因此就出現(xiàn)了主題搜索引擎（topic-specificsearchengine,又稱專業(yè)搜索引擎）。網(wǎng)絡(luò)爬蟲（Crawler,或Spider程序）是一個(gè)自動(dòng)下載Web網(wǎng)頁的程序，是搜索引擎的基礎(chǔ)與核心。主題搜索引擎

7、中的主題爬蟲，首先需要定義“主題概念”，明確“主題”的范圍和內(nèi)容，即對(duì)“主題”進(jìn)行描述或定義。主題概念可以用主題詞集來表示，也可以表示為示例文檔（由用戶選定的種子樣本），也可來源于某一領(lǐng)域概念。主題爬蟲在工作時(shí)，只抓取與主題相關(guān)的網(wǎng)頁或內(nèi)容。為了保證采集到的信息的主題相關(guān)性，以何種策略來決定訪問Web的搜索路徑，是主題爬蟲研究的焦點(diǎn)[1-4]o該文根據(jù)網(wǎng)頁評(píng)價(jià)算法的不同，對(duì)比分析了主題爬蟲的幾種搜索策略，總結(jié)了提高主題爬蟲搜索效率的幾個(gè)方面。2網(wǎng)頁評(píng)價(jià)算法研究Web±的頁面分布表面看似雜亂無章，但主題頁面的分1主題爬蟲的工作原理(種子

8、網(wǎng)絡(luò)爬蟲在采集Web信息時(shí)，通常從一個(gè)“種子集”布卻有一定的規(guī)律，可總結(jié)為4個(gè)特征［3,6,10］：①站點(diǎn)主題特征，收稿日期:2007-06-25E-mail：Iiuhx666@21cn.com基金項(xiàng)目:國家863高技術(shù)

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 16



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

主題爬蟲的搜索策略研究

主題爬蟲的搜索策略研究

相關(guān)文章

相關(guān)標(biāo)簽