開(kāi)源爬蟲(chóng)的比較

開(kāi)源爬蟲(chóng)的比較

ID:34280920

大小:58.10 KB

頁(yè)數(shù):7頁(yè)

時(shí)間:2019-03-04

開(kāi)源爬蟲(chóng)的比較_第1頁(yè)
開(kāi)源爬蟲(chóng)的比較_第2頁(yè)
開(kāi)源爬蟲(chóng)的比較_第3頁(yè)
開(kāi)源爬蟲(chóng)的比較_第4頁(yè)
開(kāi)源爬蟲(chóng)的比較_第5頁(yè)
資源描述:

《開(kāi)源爬蟲(chóng)的比較》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、開(kāi)源爬蟲(chóng)Labin,Nutch,Neritrix介紹和對(duì)比26從網(wǎng)上找了一些開(kāi)源spider的相關(guān)資料,整理在下面:Larbin開(kāi)發(fā)語(yǔ)言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是個(gè)基于C++的web爬蟲(chóng)工具,擁有易于操作的界面,不過(guò)只能跑在LINUX下,在一臺(tái)普通PC下larbin每天可以爬5百萬(wàn)個(gè)頁(yè)面(當(dāng)然啦,需要擁有良好的網(wǎng)絡(luò))簡(jiǎn)介L(zhǎng)arbin是一種開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)/網(wǎng)絡(luò)蜘蛛,由法國(guó)的年輕人SébastienAilleret獨(dú)立開(kāi)發(fā)。larb

2、in目的是能夠跟蹤頁(yè)面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就是說(shuō)larbin只抓取網(wǎng)頁(yè),至于如何parse的事情則由用戶自己完成。另外,如何存儲(chǔ)到數(shù)據(jù)庫(kù)以及建立索引的事情larbin也不提供。Latbin最初的設(shè)計(jì)也是依據(jù)設(shè)計(jì)簡(jiǎn)單但是高度可配置性的原則,因此我們可以看到,一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每天獲?。担埃叭f(wàn)的網(wǎng)頁(yè),非常高效。?????功能?????1.larbin獲取單個(gè)、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個(gè)網(wǎng)站。?????2.larbin建立url

3、列表群,例如針對(duì)所有的網(wǎng)頁(yè)進(jìn)行urlretrive后,進(jìn)行xml的聯(lián)結(jié)的獲取?;蛘呤莔p3。?????3.larbin定制后可以作為搜索引擎的信息的來(lái)源(例如可以將抓取下來(lái)的網(wǎng)頁(yè)每2000一組存放在一系列的目錄結(jié)構(gòu)里面)。問(wèn)題Labin的主要問(wèn)題是,:僅提供保存網(wǎng)頁(yè)保存功能,沒(méi)有進(jìn)行進(jìn)一步的網(wǎng)頁(yè)解析;不支持分布式系統(tǒng);功能相對(duì)簡(jiǎn)單,提供的配置項(xiàng)也不夠多;不支持網(wǎng)頁(yè)自動(dòng)重訪,更新功能;從2003年底以后,Labin已經(jīng)放棄更新,目前處于荒蕪長(zhǎng)草的狀態(tài)Nutch開(kāi)發(fā)語(yǔ)言:Javahttp://lucene.apac

4、he.org/nutch/?簡(jiǎn)介:Apache的子項(xiàng)目之一,屬于Lucene項(xiàng)目下的子項(xiàng)目。Nutch是一個(gè)基于Lucene,類似Google的完整網(wǎng)絡(luò)搜索引擎解決方案,基于Hadoop的分布式處理模型保證了系統(tǒng)的性能,類似Eclipse的插件機(jī)制保證了系統(tǒng)的可客戶化,而且很容易集成到自己的應(yīng)用之中。?總體上Nutch可以分為2個(gè)部分:抓取部分和搜索部分。抓取程序抓取頁(yè)面并把抓取回來(lái)的數(shù)據(jù)做成反向索引,搜索程序則對(duì)反向索引搜索回答用戶的請(qǐng)求。抓取程序和搜索程序的接口是索引,兩者都使用索引中的字段。抓取程序和搜索

5、程序可以分別位于不同的機(jī)器上。下面詳細(xì)介紹一下抓取部分。抓取部分:?抓取程序是被Nutch的抓取工具驅(qū)動(dòng)的。這是一組工具,用來(lái)建立和維護(hù)幾個(gè)不同的數(shù)據(jù)結(jié)構(gòu):webdatabase,asetofsegments,andtheindex。下面逐個(gè)解釋這三個(gè)不同的數(shù)據(jù)結(jié)構(gòu):???1、Thewebdatabase,或者WebDB。這是一個(gè)特殊存儲(chǔ)數(shù)據(jù)結(jié)構(gòu),用來(lái)映像被抓取網(wǎng)站數(shù)據(jù)的結(jié)構(gòu)和屬性的集合。WebDB用來(lái)存儲(chǔ)從抓取開(kāi)始(包括重新抓取)的所有網(wǎng)站結(jié)構(gòu)數(shù)據(jù)和屬性。WebDB只是被抓取程序使用,搜索程序并不使用它。We

6、bDB存儲(chǔ)2種實(shí)體:頁(yè)面和鏈接。頁(yè)面表示網(wǎng)絡(luò)上的一個(gè)網(wǎng)頁(yè),這個(gè)網(wǎng)頁(yè)的Url作為標(biāo)示被索引,同時(shí)建立一個(gè)對(duì)網(wǎng)頁(yè)內(nèi)容的MD5哈希簽名。跟網(wǎng)頁(yè)相關(guān)的其它內(nèi)容也被存儲(chǔ),包括:頁(yè)面中的鏈接數(shù)量(外鏈接),頁(yè)面抓取信息(在頁(yè)面被重復(fù)抓取的情況下),還有表示頁(yè)面級(jí)別的分?jǐn)?shù)score。鏈接表示從一個(gè)網(wǎng)頁(yè)的鏈接到其它網(wǎng)頁(yè)的鏈接。因此WebDB可以說(shuō)是一個(gè)網(wǎng)絡(luò)圖,節(jié)點(diǎn)是頁(yè)面,鏈接是邊。???2、Segment。這是網(wǎng)頁(yè)的集合,并且它被索引。Segment的Fetchlist是抓取程序使用的url列表,它是從WebDB中生成的。Fe

7、tcher的輸出數(shù)據(jù)是從fetchlist中抓取的網(wǎng)頁(yè)。Fetcher的輸出數(shù)據(jù)先被反向索引,然后索引后的結(jié)果被存儲(chǔ)在segment中。Segment的生命周期是有限制的,當(dāng)下一輪抓取開(kāi)始后它就沒(méi)有用了。默認(rèn)的重新抓取間隔是30天。因此刪除超過(guò)這個(gè)時(shí)間期限的segment是可以的。而且也可以節(jié)省不少磁盤(pán)空間。Segment的命名是日期加時(shí)間,因此很直觀的可以看出他們的存活周期。???3、Theindex。索引庫(kù)是反向索引所有系統(tǒng)中被抓取的頁(yè)面,它并不直接從頁(yè)面反向索引產(chǎn)生,而是合并很多小的segment的索引產(chǎn)

8、生的。Nutch使用Lucene來(lái)建立索引,因此所有Lucene相關(guān)的工具API都用來(lái)建立索引庫(kù)。需要說(shuō)明的是Lucene的segment的概念和Nutch的segment概念是完全不同的,不要混淆。簡(jiǎn)單來(lái)說(shuō)Lucene的segment是Lucene索引庫(kù)的一部分,而Nutch的Segment是WebDB中被抓取和索引的一部分。抓取過(guò)程詳解:?????抓取是一個(gè)循環(huán)的過(guò)程:抓取工具從W

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。