基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf

ID：50391669

大?。?.95 MB

頁數(shù)：59頁

時(shí)間：2020-03-05

基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf_第1頁

基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf_第2頁

基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf_第3頁

基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf_第4頁

基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf_第5頁

資源描述：

《基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、分類號(hào)：單位代碼：論文題目基于分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究作者姓名：岳雨儉專業(yè)名稱：計(jì)算機(jī)科學(xué)與技術(shù)導(dǎo)師姓名：吳觀茂副教授完成時(shí)間：二—五年六月中圖分類號(hào)：論文編號(hào)學(xué)科分類號(hào)：密級(jí)：公開安徽理工大學(xué)碩士學(xué)位論文基于分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究作者姓名：岳雨檢專業(yè)名稱：十碧禾斗學(xué)與技術(shù)研究方向：教應(yīng)用導(dǎo)師姓名：副教授導(dǎo)師單位》安徽理工太學(xué)答辯委員會(huì)主席：科良勇論文答辯日期：年月日安徽理工大學(xué)研究生處年月日ADissertationinComputerTechnologyStudyBasedonHadoopDistrib

2、utedWebCrawlerCandidate:YuJianYueSupervisor:GuanMaoWuComputerScienceandEngineeringSchoolAnHuiUniversityofScienceandTechnologyNo.168,ShungengRoad,Huainan,232001,P.R.CHINA獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知，除了文中特別加以標(biāo)注和致謝的地方以外，論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果

3、，也不包含為獲得安徽理工大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書而傕用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名：麵曰期：年—月么曰學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解安徽理工大學(xué)有倮留、使用學(xué)位論文的規(guī)定，即：研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬于安徽理工大學(xué)。學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤，允許論文被查閱和借閱。本人授權(quán)安徽理工大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索，可以釆用影印、縮印或掃描等

4、復(fù)制手段保存、匯編學(xué)位論文。（保密的學(xué)位論文在解密后適用本授權(quán)書）學(xué)位論文作者簽名：存雨檢簽字日期：年月日簽字日期摘要摘要隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，互聯(lián)網(wǎng)上站點(diǎn)越來越多，簡單的網(wǎng)絡(luò)爬蟲已經(jīng)不能實(shí)現(xiàn)對(duì)某些大型站點(diǎn)的大數(shù)據(jù)存儲(chǔ)。解決該問題的最關(guān)鍵是引入分布式存儲(chǔ)技術(shù)。是具有分布式存儲(chǔ)和分布式計(jì)算功能的軟件框架，因此對(duì)基于的分布式網(wǎng)絡(luò)爬蟲的研宄具有重要的意義。本文對(duì)存儲(chǔ)系統(tǒng)和網(wǎng)絡(luò)爬蟲技術(shù)分析后，對(duì)計(jì)算權(quán)重算法進(jìn)行了改進(jìn)，搭建了分布式爬蟲的整體架構(gòu)，設(shè)計(jì)并實(shí)現(xiàn)了各個(gè)爬蟲模塊。文中主要研宄如下：傳統(tǒng)的權(quán)重算法只考慮了網(wǎng)頁的目

5、錄深度和重要度，本文改進(jìn)的算法中增加了對(duì)網(wǎng)頁內(nèi)容重要度的考慮，提高了計(jì)算權(quán)重的精度。由于在網(wǎng)絡(luò)爬蟲抓取過程中需要頻繁的解析，導(dǎo)致對(duì)服務(wù)器的壓力過大。本文釆用了緩存技術(shù)，實(shí)現(xiàn)了在短時(shí)間內(nèi)解析同一主機(jī)名下的時(shí)，將之前解析過且被存在緩存中的結(jié)果直接進(jìn)行利用。為了解決爬蟲過程中爬取鏈接重復(fù)的問題，采用了布隆過濾器對(duì)進(jìn)行消重的方法。在更新模塊設(shè)計(jì)了網(wǎng)頁更新算法，該算法是只有在網(wǎng)頁變化時(shí)，才將新的加入到未訪問的隊(duì)列中。本文在分布式框架的基礎(chǔ)上，對(duì)網(wǎng)絡(luò)爬蟲中的線程和節(jié)點(diǎn)的性能進(jìn)行了測試，并對(duì)所得到的數(shù)據(jù)進(jìn)行了分析，相比傳統(tǒng)

6、的分布式網(wǎng)絡(luò)爬蟲，提出的分布式網(wǎng)絡(luò)爬蟲具有較髙的抓取效率。圖表參考文獻(xiàn)關(guān)鍵詞：分布式網(wǎng)絡(luò)爬蟲；改進(jìn)的計(jì)算權(quán)重算法；；分類號(hào)：AbstractWiththedevelopmentofnetworktechniques,therearemoreandmorewebsiteontheinternetsothatitcannotstoragebigdataforsomecertainlargewebsitebysimplewebcrawler.That'swhypeopleneedtoapplyDistributed

7、storagetechnology.Hadoopisakindofsoftwareframework,whichhasthefunctionofHadoopDistributesFileSystemandMapReduce.Therefore,itplaysanimportantroleforthewebcrawlerbasedonHadoop.Inthisthesis,firstofall,weanalyzeHadoopDistributesFileSystemandwebcrawlertechniques

8、.Moreover,wemodifythealgorithmofcomputingweightsandestablishthegeneralframeofDistributeswebcrawler.Finally,wedesignandimplementeachmoduleofwebcrawler.Herearesomemaintechniquesasfollows:(1)Inthepast,the

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 59



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf

基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究.pdf

相關(guān)文章

相關(guān)標(biāo)簽