基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)(1)

ID：30641724

大小：16.95 KB

頁數(shù)：3頁

時間：2019-01-02

基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)(1)_第1頁

基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)(1)_第2頁

基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)(1)_第3頁

資源描述：

《基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)(1)》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、從本學(xué)科出發(fā)，應(yīng)著重選對國民經(jīng)濟(jì)具有一定實(shí)用價值和理論意義的課題。課題具有先進(jìn)性，便于研究生提出新見解，特別是博士生必須有創(chuàng)新性的成果基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)(1)網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)根據(jù)抓取過程，蜘蛛主要分為三個功能模塊，一個是網(wǎng)頁讀取模塊主要是用來讀取遠(yuǎn)程Web服務(wù)器上的網(wǎng)頁內(nèi)容，另一個是超鏈分析模塊，這個模塊主要是分析網(wǎng)頁中的超鏈接，將網(wǎng)頁上的所有超鏈接提取出來，放入到待抓取URL列表中，再一個模塊就是內(nèi)容分析模塊，這個模塊主要是對網(wǎng)頁內(nèi)容進(jìn)行分析，將網(wǎng)頁中所有超標(biāo)志去掉只留下網(wǎng)頁文字內(nèi)容。蜘蛛的主要工作流程如圖所示。首先

2、蜘蛛讀取抓取站點(diǎn)的URL列表，取出一個站點(diǎn)URL，將其放入未訪問的URL列表中，如果UVURL不為空剛從中取出一個URL判斷是否已經(jīng)訪問過，若沒有訪問過則讀取此網(wǎng)頁，并進(jìn)行超鏈分析及內(nèi)容分析，并將些頁存入文檔數(shù)據(jù)庫，并將些URL放入已訪問URL列表，直到UVRL為空為止，此時再抓取其他站點(diǎn)，依次循環(huán)直到所有的站點(diǎn)URL列表都抓取完為止。為了提高網(wǎng)絡(luò)蜘蛛的抓取效率，需要引入以下技術(shù)。、多線程技術(shù)：由于抓取的站點(diǎn)URL相當(dāng)多，采用單線程蜘蛛抓取時速度不夠，也不能滿足實(shí)際的需要。因而需要多線程技術(shù)來創(chuàng)建多個蜘蛛線程來同時抓取，以提高速

3、度。、網(wǎng)頁抓取：網(wǎng)頁抓取是基于HTTP協(xié)議之上的，網(wǎng)頁上的資源有多種，有網(wǎng)頁，有Word文檔也課題份量和難易程度要恰當(dāng)，博士生能在二年內(nèi)作出結(jié)果，碩士生能在一年內(nèi)作出結(jié)果，特別是對實(shí)驗(yàn)條件等要有恰當(dāng)?shù)墓烙?jì)。從本學(xué)科出發(fā)，應(yīng)著重選對國民經(jīng)濟(jì)具有一定實(shí)用價值和理論意義的課題。課題具有先進(jìn)性，便于研究生提出新見解，特別是博士生必須有創(chuàng)新性的成果有其他類型的文件，這樣抓取時需要判斷URL所指向資源的類型。、超鏈分析：超鏈分析是一個比較重要的環(huán)節(jié)，需要對HTML的各種標(biāo)志有一個很全面的了解。需要反復(fù)測試，考慮各種情形的發(fā)生。超鏈分析時從網(wǎng)

4、頁里提取出來的是相對于當(dāng)前頁的相對URL，因而需要根據(jù)當(dāng)前頁的絕對URL將提取的這個URL轉(zhuǎn)換成絕對URL。在此過程中需要根據(jù)ParentURL作出各種判斷。改進(jìn)方法商業(yè)化的蜘蛛需要抓取上億的網(wǎng)頁，因而抓取速度是一個關(guān)鍵，另外蜘蛛需要自動運(yùn)行，盡是減少人工的參與，因而系統(tǒng)的性能也是一個很重要的關(guān)鍵，系統(tǒng)能夠在發(fā)生異常的時候自動進(jìn)行處理，防止程序的退出和死機(jī)。[3]有一些細(xì)節(jié)需要注意：系統(tǒng)應(yīng)該使用多線程，使用多個蜘蛛同時抓取，在可能的情況下，最好是做成分布式的蜘蛛程序，蜘蛛應(yīng)該分布地網(wǎng)絡(luò)上多臺服務(wù)器上協(xié)同抓取網(wǎng)頁，這樣速度會更快，

5、更符合我們的實(shí)際應(yīng)用。對于同一網(wǎng)站的網(wǎng)頁應(yīng)該采用同一個HttpConnection這樣有效地節(jié)省創(chuàng)建一個連接的時間，另外對于抓取的URL采用域名緩沖機(jī)制，這樣抓取時減少由域名到IP地址的轉(zhuǎn)換時間以及重復(fù)的域名轉(zhuǎn)換。若課題份量和難易程度要恰當(dāng)，博士生能在二年內(nèi)作出結(jié)果，碩士生能在一年內(nèi)作出結(jié)果，特別是對實(shí)驗(yàn)條件等要有恰當(dāng)?shù)墓烙?jì)。從本學(xué)科出發(fā)，應(yīng)著重選對國民經(jīng)濟(jì)具有一定實(shí)用價值和理論意義的課題。課題具有先進(jìn)性，便于研究生提出新見解，特別是博士生必須有創(chuàng)新性的成果能做到這一步將會大大減少抓取時間，因?yàn)樵L問一URL時每次都要進(jìn)行域名到主

6、機(jī)IP地址的轉(zhuǎn)換。最好是能夠?qū)⒆x取網(wǎng)頁、超鏈分析及網(wǎng)頁內(nèi)容分析三部分分開來做，讓它們并行協(xié)同工作，這樣效率會更高。因?yàn)樵谶@三個過程中網(wǎng)頁讀取比起其他兩個功能來說是一個長任務(wù)，最耗時間。當(dāng)抓取完一網(wǎng)頁后，在抓取下一網(wǎng)頁的時候讓去執(zhí)行超鏈分析和內(nèi)容分析。這樣在下一網(wǎng)頁抓取完成之前超鏈分析和內(nèi)容分析任務(wù)就能完成，抓取任務(wù)不會延遲，這樣節(jié)省了一些時間。結(jié)束語隨著人們對“個性化”信息服務(wù)需要的日益增長，專業(yè)搜索引擎的發(fā)展將成為搜索引擎發(fā)展的主要趨勢之一。[4]網(wǎng)絡(luò)蜘蛛搜索策略問題的研究，對專業(yè)搜索引擎的應(yīng)用與發(fā)展具有重要意義。本文對現(xiàn)有的

7、網(wǎng)絡(luò)蜘蛛搜索策略進(jìn)行了簡單的介紹和分析，提出了一種基于廣度優(yōu)先搜索網(wǎng)絡(luò)蜘蛛設(shè)計(jì)方案。提出了提高網(wǎng)絡(luò)蜘蛛效率的幾種方法。目前的網(wǎng)絡(luò)蜘蛛通常采用“固定的”搜索策略，缺乏適應(yīng)性，如何提高網(wǎng)絡(luò)蜘蛛的自適應(yīng)性有待進(jìn)一步研究?？傊W(wǎng)絡(luò)蜘蛛搜索策略問題的研究還處于發(fā)展階段，無論是模型、搜索算法，還是實(shí)驗(yàn)方法都還有許多有待解決的問題。課題份量和難易程度要恰當(dāng)，博士生能在二年內(nèi)作出結(jié)果，碩士生能在一年內(nèi)作出結(jié)果，特別是對實(shí)驗(yàn)條件等要有恰當(dāng)?shù)墓烙?jì)。

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)(1)

基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)(1)

相關(guān)文章

相關(guān)標(biāo)簽