基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)

基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)

ID:6187088

大?。?.14 MB

頁(yè)數(shù):67頁(yè)

時(shí)間:2018-01-06

基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)_第1頁(yè)
基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)_第2頁(yè)
基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)_第3頁(yè)
基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)_第4頁(yè)
基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)_第5頁(yè)
資源描述:

《基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、基于廣度優(yōu)先算法的多線程爬蟲程序畢業(yè)設(shè)計(jì)目錄1緒論11.1網(wǎng)絡(luò)爬蟲的發(fā)展11.2國(guó)內(nèi)外技術(shù)發(fā)展現(xiàn)狀21.3系統(tǒng)設(shè)計(jì)的意義32總體設(shè)計(jì)方案42.1系統(tǒng)設(shè)計(jì)方案42.2系統(tǒng)設(shè)計(jì)框圖42.3網(wǎng)絡(luò)爬蟲的相關(guān)技術(shù)52.3.1URL52.3.2HTTP協(xié)議62.3.3JAVA多線程92.3.4JAVA網(wǎng)絡(luò)編程163系統(tǒng)軟件設(shè)計(jì)213.1系統(tǒng)軟件概述213.2Eclipse軟件介紹213.3服務(wù)器端設(shè)計(jì)223.3.1網(wǎng)本頁(yè)解析部分223.3.2獲取新的網(wǎng)絡(luò)代理部分363.4.1登錄部分373.4.2Table模塊373.4.2上傳檔及查詢部分393.5Socket通信部分393.5.

2、1什么是Socket393.5.2服務(wù)端部分443.5.3客戶端部分464系統(tǒng)運(yùn)行484.1服務(wù)器端界面484.2客戶端界面50結(jié)論51致謝52參考文獻(xiàn)53外文資料原文55附錄B漢語翻譯6265附錄C程序代碼66651緒論1.1網(wǎng)絡(luò)爬蟲的發(fā)展在互聯(lián)網(wǎng)發(fā)展的早期,網(wǎng)站數(shù)量相對(duì)較少,信息數(shù)據(jù)量不大,查找也比較容易。然而伴隨互聯(lián)網(wǎng)井噴性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到自己所需的數(shù)據(jù)簡(jiǎn)直如同在數(shù)據(jù)的海洋里撈針,為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。所有搜索引擎的鼻祖,是1990年由Montreal的McGillUniversity三名學(xué)生(AlanEmtage、Peter

3、Deutsch、BillWheelan)發(fā)明的Archie(ArchieFAQ)。AlanEmtage等想到了開發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了Archie。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。由于Archie深受歡迎,受其啟發(fā),NevadaSystemComputingServices大學(xué)于1993年開發(fā)了一個(gè)Gopher(GopherFAQ)搜索工具Veronica(Ver

4、onicaFAQ)。Jughead是后來另一個(gè)Gopher搜索工具。雖然當(dāng)時(shí)萬維網(wǎng)還未出現(xiàn),但網(wǎng)絡(luò)中檔傳輸還是相當(dāng)頻繁的,而且由于大量的檔散布在各個(gè)分散的FTP主機(jī)中,查詢起來非常不便,因此AlanArchie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。當(dāng)時(shí),“機(jī)器人”一詞在編程者中十分流行。計(jì)算機(jī)“機(jī)器人”(ComputerRobot)是指某個(gè)能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的“機(jī)器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的“機(jī)器人”程序就

5、被稱為“蜘蛛”程序。世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是MatthewGray開發(fā)的WorldwideWebWanderer。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。與Wanderer相對(duì)應(yīng),MartinKosher于1993年10月創(chuàng)建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“機(jī)器人”程序,而是靠網(wǎng)站主動(dòng)提交信息來建立自己的鏈接索引,類似于現(xiàn)在我們熟知的Yahoo。隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來越困難,因此,在MatthewGray的Wanderer基礎(chǔ)上,一些編程者將傳統(tǒng)

6、的“蜘蛛”65程序工作原理作了些改進(jìn)。直到一些編程者提出了這樣的設(shè)想,既然所有網(wǎng)頁(yè)都可能有連向其它網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。到1993年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),但是早期的搜索引擎只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無信息關(guān)聯(lián)度可言。而RBSE是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵詞串匹配程度概念的引擎。最早現(xiàn)代意義上的搜索引擎出現(xiàn)于1994年7月。當(dāng)時(shí)MichaelMauldin將JohnLeavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos(2000年被西班牙網(wǎng)絡(luò)集團(tuán)

7、TerraLycosNetwork收購(gòu))。同年4月,斯坦福(Stanford)大學(xué)最為著名的兩名博士生,美籍華人楊致遠(yuǎn)(GerryYang)和DavidFilo共同創(chuàng)辦了Yahoo公司,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語。像國(guó)外的Google,國(guó)內(nèi)的百度,這樣的搜索引擎巨擘由于掌握的大多數(shù)的入口流量,成為互聯(lián)網(wǎng)世界的霸主,并帶來了巨大的商業(yè)價(jià)值。1.2國(guó)內(nèi)外技術(shù)發(fā)展現(xiàn)狀因?yàn)樗阉饕娴纳虡I(yè)化應(yīng)用帶來了巨大的商業(yè)價(jià)值,所以作為搜索引擎

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。