開(kāi)源搜索引擎的比較

ID：16323617

大?。?7.79 KB

頁(yè)數(shù)：5頁(yè)

時(shí)間：2018-08-09

資源描述：

《開(kāi)源搜索引擎的比較》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、開(kāi)源搜索引擎的比較?1．?Nutch?簡(jiǎn)介：?Nutch是一個(gè)用java實(shí)現(xiàn)的基于Lucene的開(kāi)源搜索引擎框架，主要包括爬蟲(chóng)和查詢(xún)兩部分組成。Nutch所使用的數(shù)據(jù)文件主要有以下三種：1）是webDb，保存網(wǎng)頁(yè)鏈接結(jié)構(gòu)信息，只在爬蟲(chóng)工作中使用。2）是segment，存儲(chǔ)網(wǎng)頁(yè)內(nèi)容及其索引，以產(chǎn)生的時(shí)間來(lái)命名。segment文件內(nèi)容包括CrawlDatum、Content、ParseData、ParseText四個(gè)部分，其中CrawlDatum保存抓取的基本信息，content保存html腳本，ParseData和ParseTex

2、t這兩個(gè)部分是對(duì)原內(nèi)容的解析結(jié)果。3）是index，即索引文件，它把各個(gè)segment的信息進(jìn)行了整合。爬蟲(chóng)的搜索策略是采用廣度優(yōu)先方式抓取網(wǎng)頁(yè)，且只獲取并保存可索引的內(nèi)容。?Nutch0.7需要java1.4以上的版本，nutch1.0需要java1.6。?特點(diǎn)：?1、?遵循robots.txt，當(dāng)爬蟲(chóng)訪問(wèn)一個(gè)站點(diǎn)時(shí)，會(huì)首先檢查該站點(diǎn)根目錄下是否???????存在robots.txt，如果存在，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)?的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。?2、采

3、用基于Hadoop的分布式處理模型，支持分布式的實(shí)現(xiàn)。?3、Nutch可以修剪內(nèi)容，或者對(duì)內(nèi)容格式進(jìn)行轉(zhuǎn)換。?4、?Nutch使用插件機(jī)制，可以很好的被用戶(hù)定制和集成。?5、?Nutch采用了多線程技術(shù)。?6、?將爬取和建索引整合在了一起，爬取內(nèi)容的存儲(chǔ)方式是其自己定義的segment，不便于對(duì)爬取的內(nèi)容進(jìn)行再次處理，需要進(jìn)行一定的修改。?7、?因?yàn)榧尤肓藢?duì)頁(yè)面分析，建索引等功能其效率與heritrix相比要相對(duì)較低。?全國(guó)注冊(cè)建筑師、建造師考試備考資料歷年真題考試心得模擬試題2．?Heritrix?簡(jiǎn)介：?Heritrix是一

4、個(gè)用Java實(shí)現(xiàn)的基于整個(gè)web的可擴(kuò)展的開(kāi)源爬蟲(chóng)框架。Heritrix主要由三大部件：范圍部件，邊界部件，處理器鏈組成。范圍部件主要按照規(guī)則決定將哪個(gè)URI入隊(duì)；邊界部件跟蹤哪個(gè)預(yù)定的URI將被收集，和已經(jīng)被收集的URI，選擇下一個(gè)?URI，剔除已經(jīng)處理過(guò)的URI；處理器鏈包含若干處理器獲取URI，分析結(jié)果，將它們傳回給邊界部件。采用廣度優(yōu)先算法進(jìn)行爬取。?heritrix用來(lái)獲取完整的、精確的、站點(diǎn)內(nèi)容的深度復(fù)制。包括獲取圖像以及其他非文本內(nèi)容。抓取并存儲(chǔ)相關(guān)的內(nèi)容。對(duì)內(nèi)容來(lái)者不拒，不對(duì)頁(yè)面進(jìn)行內(nèi)容上的修改。重新爬行對(duì)相同的

5、URL不針對(duì)先前的進(jìn)行替換。??特點(diǎn)：?1、?各個(gè)部件都具有較高的可擴(kuò)展的，通過(guò)對(duì)各個(gè)部件的修改可以實(shí)現(xiàn)自己的抓取邏輯。?2、?可以進(jìn)行多種的配置，包括可設(shè)置輸出日志，歸檔文件和臨時(shí)文件的位置；可設(shè)置下載的最大字節(jié)，最大數(shù)量的下載文檔，和最大的下載時(shí)間；可設(shè)置工作線程數(shù)量；可設(shè)置所利用的帶寬的上界；可在設(shè)置之后一定時(shí)間重新選擇；包含一些可設(shè)置的過(guò)濾機(jī)制，表達(dá)方式，URI路徑深度選擇等等。?3、?采用多線程技術(shù)。?4、?保存的內(nèi)容是原始的內(nèi)容，采用鏡像方式存儲(chǔ)，即按照斜杠所劃分出的層次結(jié)構(gòu)進(jìn)行存儲(chǔ)，同時(shí)也會(huì)爬取圖片等信息。?5、?

6、同樣也遵守robots.txt規(guī)范。?6、?在硬件和系統(tǒng)失敗時(shí)，恢復(fù)能力很差。????3．?WebSPHINX?簡(jiǎn)介：?WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。WebSPHINX由兩部分組成：爬蟲(chóng)工作平臺(tái)和WebSPHINX類(lèi)包。爬蟲(chóng)工作臺(tái)提供接口實(shí)現(xiàn)對(duì)爬蟲(chóng)的配置；類(lèi)包則提供對(duì)爬蟲(chóng)進(jìn)行擴(kuò)展需要的一些支持。?其工作原理為從一個(gè)基點(diǎn)網(wǎng)站出發(fā)，遍歷其中的所有有用信息，同時(shí)抽去其中的鏈接信息放入隊(duì)列，以待有空閑蠕蟲(chóng)（worm）時(shí)，從隊(duì)列中讀取，發(fā)出request?請(qǐng)求，繼續(xù)進(jìn)行信息抽取和鏈接入隊(duì)列的工作。?特點(diǎn)

7、：?1、?保存網(wǎng)頁(yè)的原始內(nèi)容。?2、?采用多線程技術(shù)。?3、?采用廣度優(yōu)先遍歷算法進(jìn)行爬取。?4、?支持HTML解析，URL過(guò)濾，頁(yè)面配置，模式匹配等等。?5、適用于爬取小規(guī)模的網(wǎng)頁(yè)，例如爬取單一的個(gè)人站點(diǎn)。??4．?Weblech?簡(jiǎn)介：?WebLech是一個(gè)用Java實(shí)現(xiàn)的功能強(qiáng)大的Web站點(diǎn)下載與鏡像工具。它支持按功能需求來(lái)下載web站點(diǎn)并能夠盡可能模仿標(biāo)準(zhǔn)Web瀏覽器的行為。WebLech有一個(gè)功能控制臺(tái)并采用多線程操作。?特點(diǎn)：?1、?支持多線程技術(shù)。?2、可維持網(wǎng)頁(yè)的鏈接信息，可配置性較強(qiáng)，配置較為靈活，可設(shè)置需獲取

8、的網(wǎng)頁(yè)文件的類(lèi)型、起始地址、抓取策略等14?項(xiàng)內(nèi)容。?3、?采用廣度優(yōu)先遍歷算法爬取網(wǎng)頁(yè)。?4、保存網(wǎng)頁(yè)的原始內(nèi)容。?5．?Jspider?簡(jiǎn)介：?JSpider是一個(gè)完全用Java實(shí)現(xiàn)的可配置和定制的Web?Spider引擎.你可以利用它來(lái)檢查網(wǎng)站的錯(cuò)誤(內(nèi)在

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳，版權(quán)歸屬用戶(hù)，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。

開(kāi)源搜索引擎的比較

開(kāi)源搜索引擎的比較

相關(guān)文章

相關(guān)標(biāo)簽