資源描述:
《開(kāi)源搜索引擎的比較》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、開(kāi)源搜索引擎的比較?1.?Nutch?簡(jiǎn)介:?Nutch是一個(gè)用java實(shí)現(xiàn)的基于Lucene的開(kāi)源搜索引擎框架,主要包括爬蟲(chóng)和查詢(xún)兩部分組成。Nutch所使用的數(shù)據(jù)文件主要有以下三種:1)是webDb,保存網(wǎng)頁(yè)鏈接結(jié)構(gòu)信息,只在爬蟲(chóng)工作中使用。2)是segment,存儲(chǔ)網(wǎng)頁(yè)內(nèi)容及其索引,以產(chǎn)生的時(shí)間來(lái)命名。segment文件內(nèi)容包括CrawlDatum、Content、ParseData、ParseText四個(gè)部分,其中CrawlDatum保存抓取的基本信息,content保存html腳本,ParseData和ParseTex
2、t這兩個(gè)部分是對(duì)原內(nèi)容的解析結(jié)果。3)是index,即索引文件,它把各個(gè)segment的信息進(jìn)行了整合。爬蟲(chóng)的搜索策略是采用廣度優(yōu)先方式抓取網(wǎng)頁(yè),且只獲取并保存可索引的內(nèi)容。?Nutch0.7需要java1.4以上的版本,nutch1.0需要java1.6。?特點(diǎn):?1、?遵循robots.txt,當(dāng)爬蟲(chóng)訪問(wèn)一個(gè)站點(diǎn)時(shí),會(huì)首先檢查該站點(diǎn)根目錄下是否???????存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)?的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。?2、采
3、用基于Hadoop的分布式處理模型,支持分布式的實(shí)現(xiàn)。?3、Nutch可以修剪內(nèi)容,或者對(duì)內(nèi)容格式進(jìn)行轉(zhuǎn)換。?4、?Nutch使用插件機(jī)制,可以很好的被用戶(hù)定制和集成。?5、?Nutch采用了多線程技術(shù)。?6、?將爬取和建索引整合在了一起,爬取內(nèi)容的存儲(chǔ)方式是其自己定義的segment,不便于對(duì)爬取的內(nèi)容進(jìn)行再次處理,需要進(jìn)行一定的修改。?7、?因?yàn)榧尤肓藢?duì)頁(yè)面分析,建索引等功能其效率與heritrix相比要相對(duì)較低。?全國(guó)注冊(cè)建筑師、建造師考試備考資料歷年真題考試心得模擬試題2.?Heritrix?簡(jiǎn)介:?Heritrix是一
4、個(gè)用Java實(shí)現(xiàn)的基于整個(gè)web的可擴(kuò)展的開(kāi)源爬蟲(chóng)框架。Heritrix主要由三大部件:范圍部件,邊界部件,處理器鏈組成。范圍部件主要按照規(guī)則決定將哪個(gè)URI入隊(duì);邊界部件跟蹤哪個(gè)預(yù)定的URI將被收集,和已經(jīng)被收集的URI,選擇下一個(gè)?URI,剔除已經(jīng)處理過(guò)的URI;處理器鏈包含若干處理器獲取URI,分析結(jié)果,將它們傳回給邊界部件。采用廣度優(yōu)先算法進(jìn)行爬取。?heritrix用來(lái)獲取完整的、精確的、站點(diǎn)內(nèi)容的深度復(fù)制。包括獲取圖像以及其他非文本內(nèi)容。抓取并存儲(chǔ)相關(guān)的內(nèi)容。對(duì)內(nèi)容來(lái)者不拒,不對(duì)頁(yè)面進(jìn)行內(nèi)容上的修改。重新爬行對(duì)相同的
5、URL不針對(duì)先前的進(jìn)行替換。??特點(diǎn):?1、?各個(gè)部件都具有較高的可擴(kuò)展的,通過(guò)對(duì)各個(gè)部件的修改可以實(shí)現(xiàn)自己的抓取邏輯。?2、?可以進(jìn)行多種的配置,包括可設(shè)置輸出日志,歸檔文件和臨時(shí)文件的位置;可設(shè)置下載的最大字節(jié),最大數(shù)量的下載文檔,和最大的下載時(shí)間;可設(shè)置工作線程數(shù)量;可設(shè)置所利用的帶寬的上界;可在設(shè)置之后一定時(shí)間重新選擇;包含一些可設(shè)置的過(guò)濾機(jī)制,表達(dá)方式,URI路徑深度選擇等等。?3、?采用多線程技術(shù)。?4、?保存的內(nèi)容是原始的內(nèi)容,采用鏡像方式存儲(chǔ),即按照斜杠所劃分出的層次結(jié)構(gòu)進(jìn)行存儲(chǔ),同時(shí)也會(huì)爬取圖片等信息。?5、?
6、同樣也遵守robots.txt規(guī)范。?6、?在硬件和系統(tǒng)失敗時(shí),恢復(fù)能力很差。????3.?WebSPHINX?簡(jiǎn)介:?WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。WebSPHINX由兩部分組成:爬蟲(chóng)工作平臺(tái)和WebSPHINX類(lèi)包。爬蟲(chóng)工作臺(tái)提供接口實(shí)現(xiàn)對(duì)爬蟲(chóng)的配置;類(lèi)包則提供對(duì)爬蟲(chóng)進(jìn)行擴(kuò)展需要的一些支持。?其工作原理為從一個(gè)基點(diǎn)網(wǎng)站出發(fā),遍歷其中的所有有用信息,同時(shí)抽去其中的鏈接信息放入隊(duì)列,以待有空閑蠕蟲(chóng)(worm)時(shí),從隊(duì)列中讀取,發(fā)出request?請(qǐng)求,繼續(xù)進(jìn)行信息抽取和鏈接入隊(duì)列的工作。?特點(diǎn)
7、:?1、?保存網(wǎng)頁(yè)的原始內(nèi)容。?2、?采用多線程技術(shù)。?3、?采用廣度優(yōu)先遍歷算法進(jìn)行爬取。?4、?支持HTML解析,URL過(guò)濾,頁(yè)面配置,模式匹配等等。?5、適用于爬取小規(guī)模的網(wǎng)頁(yè),例如爬取單一的個(gè)人站點(diǎn)。??4.?Weblech?簡(jiǎn)介:?WebLech是一個(gè)用Java實(shí)現(xiàn)的功能強(qiáng)大的Web站點(diǎn)下載與鏡像工具。它支持按功能需求來(lái)下載web站點(diǎn)并能夠盡可能模仿標(biāo)準(zhǔn)Web瀏覽器的行為。WebLech有一個(gè)功能控制臺(tái)并采用多線程操作。?特點(diǎn):?1、?支持多線程技術(shù)。?2、可維持網(wǎng)頁(yè)的鏈接信息,可配置性較強(qiáng),配置較為靈活,可設(shè)置需獲取
8、的網(wǎng)頁(yè)文件的類(lèi)型、起始地址、抓取策略等14?項(xiàng)內(nèi)容。?3、?采用廣度優(yōu)先遍歷算法爬取網(wǎng)頁(yè)。?4、保存網(wǎng)頁(yè)的原始內(nèi)容。?5.?Jspider?簡(jiǎn)介:?JSpider是一個(gè)完全用Java實(shí)現(xiàn)的可配置和定制的Web?Spider引擎.你可以利用它來(lái)檢查網(wǎng)站的錯(cuò)誤(內(nèi)在