基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc

基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc

ID:11444860

大?。?45.50 KB

頁(yè)數(shù):62頁(yè)

時(shí)間:2018-07-12

基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc_第1頁(yè)
基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc_第2頁(yè)
基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc_第3頁(yè)
基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc_第4頁(yè)
基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc_第5頁(yè)
資源描述:

《基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)——爬行模塊設(shè)計(jì)摘 要網(wǎng)絡(luò)爬蟲是一種能夠自主采集Web頁(yè)面內(nèi)容的程序。隨著數(shù)據(jù)量的爆炸性增長(zhǎng),傳統(tǒng)的網(wǎng)絡(luò)爬蟲已經(jīng)越來越不能滿足人們不斷增長(zhǎng)的信息獲取需求。隨著對(duì)等網(wǎng)絡(luò)(peer-to-peer,簡(jiǎn)稱P2P)技術(shù)的快速發(fā)展,人們提出了基于P2P的網(wǎng)絡(luò)爬蟲并迅速成為研究熱點(diǎn)。本課題采用P2P網(wǎng)絡(luò)計(jì)算,用并行編程來實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲。課題分為爬行模塊和控制模塊兩大部分。爬行模塊實(shí)現(xiàn)單個(gè)爬行結(jié)點(diǎn)的基本功能,主要是根據(jù)URL隊(duì)列,從Internet下載網(wǎng)頁(yè)。本論文分為四個(gè)章節(jié),從技術(shù)背景、系統(tǒng)設(shè)計(jì)、代碼實(shí)現(xiàn)、實(shí)例展示等方面,詳細(xì)地闡述了爬行模塊的開發(fā)目的、開發(fā)技術(shù)和開

2、發(fā)過程。關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;多線程;哈希表AbstractTheWebCrawlerisonekindoftheprocedurebeingabletocollectWebpageoffacecontentautonomously.Withtheexplosivegrowthofthedata,traditionalwebcrawlerbecomehardertocatchupwiththegrowingstepofpeople’sinformationneeds.Withtherapiddevelopmentofpeer-to-peer(P2P)technology,the

3、notionofP2PWebCrawlerhasbeenproposedandquicklybecomesaresearchfocus.ThissubjectadoptsP2Pnetworkswithparallelprogrammingtorealizewebcrawlers.Subjectisdividedintocrawlermoduleandcontrolmodule.Thecrawlermodulecrawlingrealizesthebasicfunctionofsinglenode,mainlybasingontheURLqueuedownloadspagef

4、romInternet.Thispaperisdividedintofourchapters,fromtechnicalbackground,systemdesign,detaileddesign,softwaretesting,etc,andexpoundsthedevelopmentpurposes,developmenttechnologyandthedevelopmentprocessofthecrawlermodule.Keywords:thewebcrawler;Multi-thread;Haxitable目 錄第1章緒論11.1爬蟲技術(shù)背景11.1.1網(wǎng)絡(luò)爬蟲

5、的工作原理11.1.2網(wǎng)絡(luò)爬蟲的搜索策略11.1.3超文本傳輸協(xié)議簡(jiǎn)介21.1.4開發(fā)工具和開發(fā)語言介紹21.2目前該技術(shù)的應(yīng)用現(xiàn)狀以及存在的問題和缺陷111.2.1超鏈分析算法的應(yīng)用與發(fā)展121.2.2傳統(tǒng)的集中式網(wǎng)絡(luò)爬蟲向分布式網(wǎng)絡(luò)爬蟲的發(fā)展131.2.3傳統(tǒng)的通用網(wǎng)絡(luò)爬蟲向面向主題網(wǎng)絡(luò)爬蟲的發(fā)展131.3論文的主要內(nèi)容和特點(diǎn)141.4論文組織結(jié)構(gòu)14第2章總體設(shè)計(jì)與實(shí)現(xiàn)152.1需求分析152.2系統(tǒng)設(shè)計(jì)152.2.1爬行模塊的功能設(shè)計(jì)162.2.2爬行模塊的流程設(shè)計(jì)172.2.3爬行模塊與控制模塊的協(xié)工作182.3代碼實(shí)現(xiàn)192.3.1Page類的實(shí)現(xiàn)202.3.2

6、UrlManager類的實(shí)現(xiàn)262.3.3Spider類的實(shí)現(xiàn)302.3.4其它模塊382.4小結(jié)42第3章實(shí)例展示433.1實(shí)例的軟件硬件環(huán)境433.2爬行模塊測(cè)試433.3集成測(cè)試48第4章總結(jié)與展望504.1本文所解決的問題504.2對(duì)爬蟲的將來提出展望504.2.1質(zhì)量和性能方面504.2.2個(gè)性化服務(wù)方面51參考文獻(xiàn)52致謝54CONTENTSChapterI:Introduction11.1BackgroundoftheWebcrawlertechnology11.1.1Webcrawleroperatingprinciples11.1.2Searchstrat

7、egyoftheWebcrawler11.1.3BriefintroductiontoHTTP21.1.4Introductiontodevelopmentaltoolsandlanguages21.2Currentstatusofthistechnology,itsproblemsandshortcomings111.2.1Hyperlinkanalysisalgorithem:applicationanddevelopment121.2.2Changeoftraditionalcrawlerfromcentra

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。