資源描述:
《基于hadoop的分布式爬蟲及其實》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、密級保密期限:碩士研究生學位論文題目:學號:姓名:專業(yè):導師:學院:0757392010年1月10日密級:保密期限:碩士研究生學位論文題目:學號:姓名:專業(yè):導師:學院:0757392010年1月10日獨創(chuàng)性(或創(chuàng)新性)聲明本人聲明所呈交的論文是本人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京郵電大學或其他教育機構(gòu)的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作
2、了明確的說明并表示了謝意。申請學位論文與資料若有不實之處,本人承擔一切相關(guān)責任。本人簽名:不璐陀日期:洲0.3.11關(guān)于論文使用授權(quán)的說明·學位論文作者完全了解北京郵電大學有關(guān)保留和使用學位論文的規(guī)定,即:研究生在校攻讀學位期間論文工作的知識產(chǎn)權(quán)單位屬北京郵電大學。學校有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復印件和磁盤,允許學位論文被查閱和借閱;學校可以公布學位論文的全部或部分內(nèi)容,可以允許采用影印、縮印或其它復制手段保存、匯編學位論文。(保密的學位論文在解密后遵守此規(guī)定)保密論文注釋:本學位論文屬于保密在-~
3、旦一年解密后適用本授權(quán)書。非保密論文注釋:本學位論文不屬于保密范圍,適用本授權(quán)書。本人簽名:導師簽名:劣并政了人二加日期:加久子份.日期:儼t?!ち?1下北京郵電大學碩士學位論文摘要基于Hadoop平臺的分布式爬蟲及其實現(xiàn)摘任石3(如今,云計算已成為未來發(fā)展的重要趨勢之一。目前,世界上各大lT公司如Google、IBM、微軟、亞馬遜等紛紛搭建了自己的“云計算平臺”。鑒于此,實驗室也制定了長期“云計算”研究計劃,積極嘗試開發(fā)自己的“云平臺工作環(huán)境”,其主要建立在APache開源項目Hadoop的基礎(chǔ)之上。本項目是該
4、長期計劃的一部分,目的是在Hadoop分布式文件系統(tǒng)HDFS以及分布式計算框架MaPReduce的基礎(chǔ)上開發(fā)“分布式搜索引擎”。本文正是在此基礎(chǔ)上,探討了搜索引擎的爬蟲部分,即基于分布式計算框架的分布式爬蟲。本文具體研究工作包括云計篡HadQop分布式平臺、網(wǎng)挪卑原理早個主要部分。在云計算部分,本文從云計算體系結(jié)構(gòu)出發(fā),探討了云計算服務層次和'技術(shù)層次。接著,針對技術(shù)基礎(chǔ)Hadoop分布式平臺,本文對其兩大核心技術(shù)分·布式文件系統(tǒng)HDFS和分布式計算框架MaPReduce進行了深入研究。與此同時,本文討論了搜索引
5、擎的基本技術(shù)和網(wǎng)絡爬蟲的基本原理,并對分布式爬蟲的技術(shù)原型Nuteh進行了剖析。在研究工作的基礎(chǔ)上,本文提出了分布式爬蟲的具體設計方案,確定了分布式爬蟲的系統(tǒng)布局、模塊劃分以及分布式爬蟲的流程控制和功能實現(xiàn)?;诖?本文對分布式爬蟲的數(shù)據(jù)存儲方式和數(shù)據(jù)格式信息進行了設計,并完成了爬蟲各分模塊具體類的實現(xiàn)。最后,在實驗室大規(guī)模集群的基礎(chǔ)上,對該爬蟲系統(tǒng)進行了功能測試、可擴展性測試和性能測試。在這些測試數(shù)據(jù)的基礎(chǔ)上,本文對該系統(tǒng)的優(yōu)點和缺點進行了詳細分析,并對工作進行了總結(jié)和展望。關(guān)鍵詞:云計算分布式爬蟲Hadoop
6、HDFSMapReduce搜索引擎7北京郵電大學碩士學位論文AbstraetRESEARCHANDIMPLEMENT入r1ONOFDISTRIBUTEDWEBCRAWLBASEDONHADOOPARCHITECTUREABSTRACTNowadays,cloudeomPutinghasbecomeoneofthemostimPortanttechnologyintheITindustry.TheleadingeomPaniessuehasGoogle,IBM,Mierosoft,Amazonand50onared
7、eveloPingtheir“CloudComputingplatfo鉀”activel獷Inthissituat護n,thelabofStat只稱y-LaboratoryofNetworkingandSwitehingalsoneedtodeveloPitsown·“CloudComputingplatform”,whieh15mainlybasedonHadoop,TheprojeetofthisPaPer15onePartofthiseloudcomPutingPlatform.Thegoal15todev
8、eloPadistributedsearehenginebasedonRedhatELS.2,distributedfilesystemHDFSanddistributedeomPutingftameworkMaPReduce.ThisPaPerexPlorestheerawlPartofthisdistributedsearehenglne.ThisPaPerfirst