資源描述:
《基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)------爬行模塊設(shè)計(jì).doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、基于P2P網(wǎng)絡(luò)爬蟲設(shè)計(jì)——爬行模塊設(shè)計(jì)摘 要網(wǎng)絡(luò)爬蟲是一種能夠自主采集Web頁(yè)面內(nèi)容的程序。隨著數(shù)據(jù)量的爆炸性增長(zhǎng),傳統(tǒng)的網(wǎng)絡(luò)爬蟲已經(jīng)越來越不能滿足人們不斷增長(zhǎng)的信息獲取需求。隨著對(duì)等網(wǎng)絡(luò)(peer-to-peer,簡(jiǎn)稱P2P)技術(shù)的快速發(fā)展,人們提出了基于P2P的網(wǎng)絡(luò)爬蟲并迅速成為研究熱點(diǎn)。本課題采用P2P網(wǎng)絡(luò)計(jì)算,用并行編程來實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲。課題分為爬行模塊和控制模塊兩大部分。爬行模塊實(shí)現(xiàn)單個(gè)爬行結(jié)點(diǎn)的基本功能,主要是根據(jù)URL隊(duì)列,從Internet下載網(wǎng)頁(yè)。本論文分為四個(gè)章節(jié),從技術(shù)背景、系統(tǒng)設(shè)計(jì)、代碼實(shí)現(xiàn)、實(shí)例展示等方面,詳細(xì)地闡述了爬行模塊的開發(fā)目的、開發(fā)技術(shù)和開
2、發(fā)過程。關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;多線程;哈希表AbstractTheWebCrawlerisonekindoftheprocedurebeingabletocollectWebpageoffacecontentautonomously.Withtheexplosivegrowthofthedata,traditionalwebcrawlerbecomehardertocatchupwiththegrowingstepofpeople’sinformationneeds.Withtherapiddevelopmentofpeer-to-peer(P2P)technology,the
3、notionofP2PWebCrawlerhasbeenproposedandquicklybecomesaresearchfocus.ThissubjectadoptsP2Pnetworkswithparallelprogrammingtorealizewebcrawlers.Subjectisdividedintocrawlermoduleandcontrolmodule.Thecrawlermodulecrawlingrealizesthebasicfunctionofsinglenode,mainlybasingontheURLqueuedownloadspagef
4、romInternet.Thispaperisdividedintofourchapters,fromtechnicalbackground,systemdesign,detaileddesign,softwaretesting,etc,andexpoundsthedevelopmentpurposes,developmenttechnologyandthedevelopmentprocessofthecrawlermodule.Keywords:thewebcrawler;Multi-thread;Haxitable目 錄第1章緒論11.1爬蟲技術(shù)背景11.1.1網(wǎng)絡(luò)爬蟲
5、的工作原理11.1.2網(wǎng)絡(luò)爬蟲的搜索策略11.1.3超文本傳輸協(xié)議簡(jiǎn)介21.1.4開發(fā)工具和開發(fā)語言介紹21.2目前該技術(shù)的應(yīng)用現(xiàn)狀以及存在的問題和缺陷111.2.1超鏈分析算法的應(yīng)用與發(fā)展121.2.2傳統(tǒng)的集中式網(wǎng)絡(luò)爬蟲向分布式網(wǎng)絡(luò)爬蟲的發(fā)展131.2.3傳統(tǒng)的通用網(wǎng)絡(luò)爬蟲向面向主題網(wǎng)絡(luò)爬蟲的發(fā)展131.3論文的主要內(nèi)容和特點(diǎn)141.4論文組織結(jié)構(gòu)14第2章總體設(shè)計(jì)與實(shí)現(xiàn)152.1需求分析152.2系統(tǒng)設(shè)計(jì)152.2.1爬行模塊的功能設(shè)計(jì)162.2.2爬行模塊的流程設(shè)計(jì)172.2.3爬行模塊與控制模塊的協(xié)工作182.3代碼實(shí)現(xiàn)192.3.1Page類的實(shí)現(xiàn)202.3.2
6、UrlManager類的實(shí)現(xiàn)262.3.3Spider類的實(shí)現(xiàn)302.3.4其它模塊382.4小結(jié)42第3章實(shí)例展示433.1實(shí)例的軟件硬件環(huán)境433.2爬行模塊測(cè)試433.3集成測(cè)試48第4章總結(jié)與展望504.1本文所解決的問題504.2對(duì)爬蟲的將來提出展望504.2.1質(zhì)量和性能方面504.2.2個(gè)性化服務(wù)方面51參考文獻(xiàn)52致謝54CONTENTSChapterI:Introduction11.1BackgroundoftheWebcrawlertechnology11.1.1Webcrawleroperatingprinciples11.1.2Searchstrat
7、egyoftheWebcrawler11.1.3BriefintroductiontoHTTP21.1.4Introductiontodevelopmentaltoolsandlanguages21.2Currentstatusofthistechnology,itsproblemsandshortcomings111.2.1Hyperlinkanalysisalgorithem:applicationanddevelopment121.2.2Changeoftraditionalcrawlerfromcentra