開源爬蟲的比較

ID：34280920

大?。?8.10 KB

頁數(shù)：7頁

時間：2019-03-04

資源描述：

《開源爬蟲的比較》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、開源爬蟲Labin，Nutch，Neritrix介紹和對比26從網(wǎng)上找了一些開源spider的相關(guān)資料，整理在下面：Larbin開發(fā)語言：C++http://larbin.sourceforge.net/index-eng.htmllarbin是個基于C++的web爬蟲工具，擁有易于操作的界面，不過只能跑在LINUX下，在一臺普通PC下larbin每天可以爬5百萬個頁面(當然啦，需要擁有良好的網(wǎng)絡(luò))簡介Larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛，由法國的年輕人SébastienAilleret獨立開發(fā)。larb

2、in目的是能夠跟蹤頁面的url進行擴展的抓取，最后為搜索引擎提供廣泛的數(shù)據(jù)來源。Larbin只是一個爬蟲，也就是說larbin只抓取網(wǎng)頁，至于如何parse的事情則由用戶自己完成。另外，如何存儲到數(shù)據(jù)庫以及建立索引的事情larbin也不提供。Latbin最初的設(shè)計也是依據(jù)設(shè)計簡單但是高度可配置性的原則，因此我們可以看到，一個簡單的larbin的爬蟲可以每天獲取５００萬的網(wǎng)頁，非常高效。?????功能?????1.larbin獲取單個、確定網(wǎng)站的所有聯(lián)結(jié)，甚至可以鏡像一個網(wǎng)站。?????2.larbin建立url

3、列表群，例如針對所有的網(wǎng)頁進行urlretrive后，進行xml的聯(lián)結(jié)的獲取?；蛘呤莔p3。?????3.larbin定制后可以作為搜索引擎的信息的來源（例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結(jié)構(gòu)里面）。問題Labin的主要問題是，：僅提供保存網(wǎng)頁保存功能，沒有進行進一步的網(wǎng)頁解析；不支持分布式系統(tǒng)；功能相對簡單，提供的配置項也不夠多；不支持網(wǎng)頁自動重訪，更新功能；從2003年底以后，Labin已經(jīng)放棄更新，目前處于荒蕪長草的狀態(tài)Nutch開發(fā)語言：Javahttp://lucene.apac

4、he.org/nutch/?簡介：Apache的子項目之一，屬于Lucene項目下的子項目。Nutch是一個基于Lucene，類似Google的完整網(wǎng)絡(luò)搜索引擎解決方案，基于Hadoop的分布式處理模型保證了系統(tǒng)的性能，類似Eclipse的插件機制保證了系統(tǒng)的可客戶化，而且很容易集成到自己的應(yīng)用之中。?總體上Nutch可以分為2個部分：抓取部分和搜索部分。抓取程序抓取頁面并把抓取回來的數(shù)據(jù)做成反向索引，搜索程序則對反向索引搜索回答用戶的請求。抓取程序和搜索程序的接口是索引，兩者都使用索引中的字段。抓取程序和搜索

5、程序可以分別位于不同的機器上。下面詳細介紹一下抓取部分。抓取部分：?抓取程序是被Nutch的抓取工具驅(qū)動的。這是一組工具，用來建立和維護幾個不同的數(shù)據(jù)結(jié)構(gòu)：webdatabase，asetofsegments，andtheindex。下面逐個解釋這三個不同的數(shù)據(jù)結(jié)構(gòu)：???1、Thewebdatabase，或者WebDB。這是一個特殊存儲數(shù)據(jù)結(jié)構(gòu)，用來映像被抓取網(wǎng)站數(shù)據(jù)的結(jié)構(gòu)和屬性的集合。WebDB用來存儲從抓取開始（包括重新抓?。┑乃芯W(wǎng)站結(jié)構(gòu)數(shù)據(jù)和屬性。WebDB只是被抓取程序使用，搜索程序并不使用它。We

6、bDB存儲2種實體：頁面和鏈接。頁面表示網(wǎng)絡(luò)上的一個網(wǎng)頁，這個網(wǎng)頁的Url作為標示被索引，同時建立一個對網(wǎng)頁內(nèi)容的MD5哈希簽名。跟網(wǎng)頁相關(guān)的其它內(nèi)容也被存儲，包括：頁面中的鏈接數(shù)量（外鏈接），頁面抓取信息（在頁面被重復(fù)抓取的情況下），還有表示頁面級別的分數(shù)score。鏈接表示從一個網(wǎng)頁的鏈接到其它網(wǎng)頁的鏈接。因此WebDB可以說是一個網(wǎng)絡(luò)圖，節(jié)點是頁面，鏈接是邊。???2、Segment。這是網(wǎng)頁的集合，并且它被索引。Segment的Fetchlist是抓取程序使用的url列表，它是從WebDB中生成的。Fe

7、tcher的輸出數(shù)據(jù)是從fetchlist中抓取的網(wǎng)頁。Fetcher的輸出數(shù)據(jù)先被反向索引，然后索引后的結(jié)果被存儲在segment中。Segment的生命周期是有限制的，當下一輪抓取開始后它就沒有用了。默認的重新抓取間隔是30天。因此刪除超過這個時間期限的segment是可以的。而且也可以節(jié)省不少磁盤空間。Segment的命名是日期加時間，因此很直觀的可以看出他們的存活周期。???3、Theindex。索引庫是反向索引所有系統(tǒng)中被抓取的頁面，它并不直接從頁面反向索引產(chǎn)生，而是合并很多小的segment的索引產(chǎn)

8、生的。Nutch使用Lucene來建立索引，因此所有Lucene相關(guān)的工具API都用來建立索引庫。需要說明的是Lucene的segment的概念和Nutch的segment概念是完全不同的，不要混淆。簡單來說Lucene的segment是Lucene索引庫的一部分，而Nutch的Segment是WebDB中被抓取和索引的一部分。抓取過程詳解：?????抓取是一個循環(huán)的過程：抓取工具從W

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

開源爬蟲的比較

開源爬蟲的比較

相關(guān)文章

相關(guān)標簽