開源爬蟲的比較

開源爬蟲的比較

ID:34280920

大?。?8.10 KB

頁數(shù):7頁

時間:2019-03-04

開源爬蟲的比較_第1頁
開源爬蟲的比較_第2頁
開源爬蟲的比較_第3頁
開源爬蟲的比較_第4頁
開源爬蟲的比較_第5頁
資源描述:

《開源爬蟲的比較》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、開源爬蟲Labin,Nutch,Neritrix介紹和對比26從網(wǎng)上找了一些開源spider的相關(guān)資料,整理在下面:Larbin開發(fā)語言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是個基于C++的web爬蟲工具,擁有易于操作的界面,不過只能跑在LINUX下,在一臺普通PC下larbin每天可以爬5百萬個頁面(當然啦,需要擁有良好的網(wǎng)絡(luò))簡介Larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人SébastienAilleret獨立開發(fā)。larb

2、in目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。Larbin只是一個爬蟲,也就是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情larbin也不提供。Latbin最初的設(shè)計也是依據(jù)設(shè)計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網(wǎng)頁,非常高效。?????功能?????1.larbin獲取單個、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個網(wǎng)站。?????2.larbin建立url

3、列表群,例如針對所有的網(wǎng)頁進行urlretrive后,進行xml的聯(lián)結(jié)的獲取?;蛘呤莔p3。?????3.larbin定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結(jié)構(gòu)里面)。問題Labin的主要問題是,:僅提供保存網(wǎng)頁保存功能,沒有進行進一步的網(wǎng)頁解析;不支持分布式系統(tǒng);功能相對簡單,提供的配置項也不夠多;不支持網(wǎng)頁自動重訪,更新功能;從2003年底以后,Labin已經(jīng)放棄更新,目前處于荒蕪長草的狀態(tài)Nutch開發(fā)語言:Javahttp://lucene.apac

4、he.org/nutch/?簡介:Apache的子項目之一,屬于Lucene項目下的子項目。Nutch是一個基于Lucene,類似Google的完整網(wǎng)絡(luò)搜索引擎解決方案,基于Hadoop的分布式處理模型保證了系統(tǒng)的性能,類似Eclipse的插件機制保證了系統(tǒng)的可客戶化,而且很容易集成到自己的應(yīng)用之中。?總體上Nutch可以分為2個部分:抓取部分和搜索部分。抓取程序抓取頁面并把抓取回來的數(shù)據(jù)做成反向索引,搜索程序則對反向索引搜索回答用戶的請求。抓取程序和搜索程序的接口是索引,兩者都使用索引中的字段。抓取程序和搜索

5、程序可以分別位于不同的機器上。下面詳細介紹一下抓取部分。抓取部分:?抓取程序是被Nutch的抓取工具驅(qū)動的。這是一組工具,用來建立和維護幾個不同的數(shù)據(jù)結(jié)構(gòu):webdatabase,asetofsegments,andtheindex。下面逐個解釋這三個不同的數(shù)據(jù)結(jié)構(gòu):???1、Thewebdatabase,或者WebDB。這是一個特殊存儲數(shù)據(jù)結(jié)構(gòu),用來映像被抓取網(wǎng)站數(shù)據(jù)的結(jié)構(gòu)和屬性的集合。WebDB用來存儲從抓取開始(包括重新抓?。┑乃芯W(wǎng)站結(jié)構(gòu)數(shù)據(jù)和屬性。WebDB只是被抓取程序使用,搜索程序并不使用它。We

6、bDB存儲2種實體:頁面和鏈接。頁面表示網(wǎng)絡(luò)上的一個網(wǎng)頁,這個網(wǎng)頁的Url作為標示被索引,同時建立一個對網(wǎng)頁內(nèi)容的MD5哈希簽名。跟網(wǎng)頁相關(guān)的其它內(nèi)容也被存儲,包括:頁面中的鏈接數(shù)量(外鏈接),頁面抓取信息(在頁面被重復(fù)抓取的情況下),還有表示頁面級別的分數(shù)score。鏈接表示從一個網(wǎng)頁的鏈接到其它網(wǎng)頁的鏈接。因此WebDB可以說是一個網(wǎng)絡(luò)圖,節(jié)點是頁面,鏈接是邊。???2、Segment。這是網(wǎng)頁的集合,并且它被索引。Segment的Fetchlist是抓取程序使用的url列表,它是從WebDB中生成的。Fe

7、tcher的輸出數(shù)據(jù)是從fetchlist中抓取的網(wǎng)頁。Fetcher的輸出數(shù)據(jù)先被反向索引,然后索引后的結(jié)果被存儲在segment中。Segment的生命周期是有限制的,當下一輪抓取開始后它就沒有用了。默認的重新抓取間隔是30天。因此刪除超過這個時間期限的segment是可以的。而且也可以節(jié)省不少磁盤空間。Segment的命名是日期加時間,因此很直觀的可以看出他們的存活周期。???3、Theindex。索引庫是反向索引所有系統(tǒng)中被抓取的頁面,它并不直接從頁面反向索引產(chǎn)生,而是合并很多小的segment的索引產(chǎn)

8、生的。Nutch使用Lucene來建立索引,因此所有Lucene相關(guān)的工具API都用來建立索引庫。需要說明的是Lucene的segment的概念和Nutch的segment概念是完全不同的,不要混淆。簡單來說Lucene的segment是Lucene索引庫的一部分,而Nutch的Segment是WebDB中被抓取和索引的一部分。抓取過程詳解:?????抓取是一個循環(huán)的過程:抓取工具從W

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。