開(kāi)源爬蟲(chóng)的比較

ID：34280920

大小：58.10 KB

頁(yè)數(shù)：7頁(yè)

時(shí)間：2019-03-04

資源描述：

《開(kāi)源爬蟲(chóng)的比較》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、開(kāi)源爬蟲(chóng)Labin，Nutch，Neritrix介紹和對(duì)比26從網(wǎng)上找了一些開(kāi)源spider的相關(guān)資料，整理在下面：Larbin開(kāi)發(fā)語(yǔ)言：C++http://larbin.sourceforge.net/index-eng.htmllarbin是個(gè)基于C++的web爬蟲(chóng)工具，擁有易于操作的界面，不過(guò)只能跑在LINUX下，在一臺(tái)普通PC下larbin每天可以爬5百萬(wàn)個(gè)頁(yè)面(當(dāng)然啦，需要擁有良好的網(wǎng)絡(luò))簡(jiǎn)介L(zhǎng)arbin是一種開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)/網(wǎng)絡(luò)蜘蛛，由法國(guó)的年輕人SébastienAilleret獨(dú)立開(kāi)發(fā)。larb

2、in目的是能夠跟蹤頁(yè)面的url進(jìn)行擴(kuò)展的抓取，最后為搜索引擎提供廣泛的數(shù)據(jù)來(lái)源。Larbin只是一個(gè)爬蟲(chóng)，也就是說(shuō)larbin只抓取網(wǎng)頁(yè)，至于如何parse的事情則由用戶自己完成。另外，如何存儲(chǔ)到數(shù)據(jù)庫(kù)以及建立索引的事情larbin也不提供。Latbin最初的設(shè)計(jì)也是依據(jù)設(shè)計(jì)簡(jiǎn)單但是高度可配置性的原則，因此我們可以看到，一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每天獲?。担埃叭f(wàn)的網(wǎng)頁(yè)，非常高效。?????功能?????1.larbin獲取單個(gè)、確定網(wǎng)站的所有聯(lián)結(jié)，甚至可以鏡像一個(gè)網(wǎng)站。?????2.larbin建立url

3、列表群，例如針對(duì)所有的網(wǎng)頁(yè)進(jìn)行urlretrive后，進(jìn)行xml的聯(lián)結(jié)的獲取?；蛘呤莔p3。?????3.larbin定制后可以作為搜索引擎的信息的來(lái)源（例如可以將抓取下來(lái)的網(wǎng)頁(yè)每2000一組存放在一系列的目錄結(jié)構(gòu)里面）。問(wèn)題Labin的主要問(wèn)題是，：僅提供保存網(wǎng)頁(yè)保存功能，沒(méi)有進(jìn)行進(jìn)一步的網(wǎng)頁(yè)解析；不支持分布式系統(tǒng)；功能相對(duì)簡(jiǎn)單，提供的配置項(xiàng)也不夠多；不支持網(wǎng)頁(yè)自動(dòng)重訪，更新功能；從2003年底以后，Labin已經(jīng)放棄更新，目前處于荒蕪長(zhǎng)草的狀態(tài)Nutch開(kāi)發(fā)語(yǔ)言：Javahttp://lucene.apac

4、he.org/nutch/?簡(jiǎn)介：Apache的子項(xiàng)目之一，屬于Lucene項(xiàng)目下的子項(xiàng)目。Nutch是一個(gè)基于Lucene，類似Google的完整網(wǎng)絡(luò)搜索引擎解決方案，基于Hadoop的分布式處理模型保證了系統(tǒng)的性能，類似Eclipse的插件機(jī)制保證了系統(tǒng)的可客戶化，而且很容易集成到自己的應(yīng)用之中。?總體上Nutch可以分為2個(gè)部分：抓取部分和搜索部分。抓取程序抓取頁(yè)面并把抓取回來(lái)的數(shù)據(jù)做成反向索引，搜索程序則對(duì)反向索引搜索回答用戶的請(qǐng)求。抓取程序和搜索程序的接口是索引，兩者都使用索引中的字段。抓取程序和搜索

5、程序可以分別位于不同的機(jī)器上。下面詳細(xì)介紹一下抓取部分。抓取部分：?抓取程序是被Nutch的抓取工具驅(qū)動(dòng)的。這是一組工具，用來(lái)建立和維護(hù)幾個(gè)不同的數(shù)據(jù)結(jié)構(gòu)：webdatabase，asetofsegments，andtheindex。下面逐個(gè)解釋這三個(gè)不同的數(shù)據(jù)結(jié)構(gòu)：???1、Thewebdatabase，或者WebDB。這是一個(gè)特殊存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)，用來(lái)映像被抓取網(wǎng)站數(shù)據(jù)的結(jié)構(gòu)和屬性的集合。WebDB用來(lái)存儲(chǔ)從抓取開(kāi)始（包括重新抓取）的所有網(wǎng)站結(jié)構(gòu)數(shù)據(jù)和屬性。WebDB只是被抓取程序使用，搜索程序并不使用它。We

6、bDB存儲(chǔ)2種實(shí)體：頁(yè)面和鏈接。頁(yè)面表示網(wǎng)絡(luò)上的一個(gè)網(wǎng)頁(yè)，這個(gè)網(wǎng)頁(yè)的Url作為標(biāo)示被索引，同時(shí)建立一個(gè)對(duì)網(wǎng)頁(yè)內(nèi)容的MD5哈希簽名。跟網(wǎng)頁(yè)相關(guān)的其它內(nèi)容也被存儲(chǔ)，包括：頁(yè)面中的鏈接數(shù)量（外鏈接），頁(yè)面抓取信息（在頁(yè)面被重復(fù)抓取的情況下），還有表示頁(yè)面級(jí)別的分?jǐn)?shù)score。鏈接表示從一個(gè)網(wǎng)頁(yè)的鏈接到其它網(wǎng)頁(yè)的鏈接。因此WebDB可以說(shuō)是一個(gè)網(wǎng)絡(luò)圖，節(jié)點(diǎn)是頁(yè)面，鏈接是邊。???2、Segment。這是網(wǎng)頁(yè)的集合，并且它被索引。Segment的Fetchlist是抓取程序使用的url列表，它是從WebDB中生成的。Fe

7、tcher的輸出數(shù)據(jù)是從fetchlist中抓取的網(wǎng)頁(yè)。Fetcher的輸出數(shù)據(jù)先被反向索引，然后索引后的結(jié)果被存儲(chǔ)在segment中。Segment的生命周期是有限制的，當(dāng)下一輪抓取開(kāi)始后它就沒(méi)有用了。默認(rèn)的重新抓取間隔是30天。因此刪除超過(guò)這個(gè)時(shí)間期限的segment是可以的。而且也可以節(jié)省不少磁盤(pán)空間。Segment的命名是日期加時(shí)間，因此很直觀的可以看出他們的存活周期。???3、Theindex。索引庫(kù)是反向索引所有系統(tǒng)中被抓取的頁(yè)面，它并不直接從頁(yè)面反向索引產(chǎn)生，而是合并很多小的segment的索引產(chǎn)

8、生的。Nutch使用Lucene來(lái)建立索引，因此所有Lucene相關(guān)的工具API都用來(lái)建立索引庫(kù)。需要說(shuō)明的是Lucene的segment的概念和Nutch的segment概念是完全不同的，不要混淆。簡(jiǎn)單來(lái)說(shuō)Lucene的segment是Lucene索引庫(kù)的一部分，而Nutch的Segment是WebDB中被抓取和索引的一部分。抓取過(guò)程詳解：?????抓取是一個(gè)循環(huán)的過(guò)程：抓取工具從W

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

開(kāi)源爬蟲(chóng)的比較

開(kāi)源爬蟲(chóng)的比較

相關(guān)文章

相關(guān)標(biāo)簽