基于hadoop的分布式網絡爬蟲研究

基于hadoop的分布式網絡爬蟲研究

ID:35056981

大?。?.68 MB

頁數(shù):91頁

時間:2019-03-17

基于hadoop的分布式網絡爬蟲研究_第1頁
基于hadoop的分布式網絡爬蟲研究_第2頁
基于hadoop的分布式網絡爬蟲研究_第3頁
基于hadoop的分布式網絡爬蟲研究_第4頁
基于hadoop的分布式網絡爬蟲研究_第5頁
資源描述:

《基于hadoop的分布式網絡爬蟲研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、‘‘細圍11國MiIIImmm4各觀*葦,UNINAIVERSITYOF巨LECTRONICscIENCEANDTECHNOLOGYOFCHi碩±學位論文MASTERTHESIS^/’.、/乂、^方/M涵.'*?t產轉f(;產.....iHin論文題目基于Hadoo的分布式咧絡爬蟲妍究p學科專業(yè)通信與信息系統(tǒng);H學號201321010630__’作者姓名董整指導教師孫?。牳C級工程師分類號密級注1UDC學位論文基于

2、Hadoop的分布式網絡爬蟲研究(題名和副題名)李松(作者姓名)指導教師孫健高級工程師電子科技大學成都(姓名、職稱、單位名稱)申請學位級別碩士學科專業(yè)通信與信息系統(tǒng)提交論文日期2016.5.3論文答辯日期2016.5.23學位授予單位和日期電子科技大學2016年6月答辯委員會主席評閱人注1:注明《國際十進分類法UDC》的ResearchOfDistributedWebCrawlerBasedOnHadoopAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChina

3、Major:CommunicationandInformationSystemsAuthor:LiSongSupervisor:A.Prof.SunJianSchool:SchoolofCommunicationandInformationEngineering獨劍性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加標注和致謝的地方夕h論文中不包含其他人已經發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學或其它教育機構的學位或證書而使用過的材料。與我一同王作的同志對本研究所做的

4、任何貢獻均已在論文中作了明確的說明并表示謝意。^作者簽名:日期:年f月巧日韋私論支使用授權本學位論文作者完全了解電子科技大學有關保留、使用學位論文的規(guī)定,有權保留并向國家有關部口或機構送交論文的復印件和磁盤,允許論文被查閱和借閱。本人授權電子科技大學可W將學位論文的全部或部分內容編入有關數(shù)據(jù)庫進行檢索,可采用影印、縮印或掃描等復制手段保存、匯編學位論文。(保密的學位論文在解密后應遵守此規(guī)定)作者簽名:寺私導師簽名;-知健/日期:iMk年r月%日摘要摘要隨著互聯(lián)網的飛速發(fā)展,Web上的網頁信息迅

5、猛增長,面對互聯(lián)網上錯綜復雜、規(guī)模巨大的海量信息時,單機網絡爬蟲由于計算能力和存儲空間的局限性,使得抓取和處理海量數(shù)據(jù)變得十分困難。而由Apache基金會研發(fā)的Hadoop分布式計算平臺在處理和存儲海量數(shù)據(jù)有著高可用性、高伸縮性、高擴展性的特點,使Hadoop技術迅速成為了海量數(shù)據(jù)處理領域的熱門首選。將網絡爬蟲技術與Hadoop分布式計算平臺結合組成的分布式網絡爬蟲有效解決了海量網頁數(shù)據(jù)的抓取、存儲和分析的問題。因此基于Hadoop的分布式網絡爬蟲具有十分重要的研究價值和意義。本文對網絡爬蟲中的兩個算法:鏈接分析算法和URL去重算法進行了研究與分析,

6、并針對算法在Hadoop環(huán)境下的不足進行了改進優(yōu)化。在網絡爬蟲抓取網頁后,需要對抓取下來的網頁進行重要性的分析,PageRank算法是Google用于標識網頁的重要性的一種方法,而在大數(shù)據(jù)環(huán)境下,基于Hadoop的PageRank算法中每個URL的出鏈接都會作為MapReduce中間結果輸出,使得Map函數(shù)輸出文件很大,而這些結果文件需要通過網絡傳輸?shù)絉educe端,過多的時間消耗在網絡傳輸上,造成算法的計算效率低。針對這一問題,本文第四章對基于Hadoop的PageRank算法進行了改進,根據(jù)URL鏈接形成的Web圖的特點,對Web圖進行分割,劃分

7、為URL子圖,將子圖內與子圖之間PageRank的部分合并計算轉移到Map階段,減少了Map函數(shù)輸出文件大小,從而降低了MapReduce的中間網絡傳輸時間,提高了算法效率。URL去重算法同樣也是網絡爬蟲中的一個重要算法,URL去重算法在爬蟲新抓取的URL加入待抓取隊列之前,過濾已經抓取過的重復URL,使得網絡爬蟲的性能得到提高。本文重點研究了布隆過濾器去重算法,BloomFilter的占用的空間與元素本身無關,有較高的空間效率,插入和查詢操作的時間復雜度也較低,且過濾器中位數(shù)組也適合并行實現(xiàn);但隨著元素的添加,過濾器的誤判率也隨之增加,將許多無重復

8、的URL過濾,對爬蟲性能造成影響。針對這一問題,本文第五章對標準過濾器進行改進,提出動態(tài)主從布隆過濾器結構的

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。