網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用

ID：28164954

大?。?8.25 KB

頁數(shù)：5頁

時間：2018-12-08

資源描述：

《網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、為了確保“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備正常使用，我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后，中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn)，熟悉系統(tǒng)的使用和維護(hù)。網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用　　摘要：本文從網(wǎng)絡(luò)爬蟲的基本概念、網(wǎng)絡(luò)爬蟲的主要作用、網(wǎng)絡(luò)爬蟲的各種類型和網(wǎng)絡(luò)爬蟲的發(fā)展方向著手進(jìn)行研究。各種爬蟲的研究對于我們現(xiàn)如今的意義也相當(dāng)重大，通過網(wǎng)絡(luò)爬蟲爬取的特定信息通過專業(yè)分析，可以影響著我們的生活，如經(jīng)濟(jì)、健康、工作效率等方面，本文主要運(yùn)用Python編寫網(wǎng)絡(luò)爬蟲，實現(xiàn)網(wǎng)絡(luò)爬蟲的功能。了解網(wǎng)絡(luò)爬蟲如何爬取信息，如何存儲所爬取的信息，從而認(rèn)識其在信息檢索中的關(guān)鍵作用。　

2、　關(guān)鍵詞：網(wǎng)絡(luò)爬蟲；信息檢索；Python　　中圖分類號：文獻(xiàn)標(biāo)識碼：A文章編號：1007--0095-03　　1緒論　　當(dāng)今社會，數(shù)據(jù)顯得越來越重要，以往人們也意識到數(shù)據(jù)的重要性，但是以前的情況面對浩如煙海的數(shù)據(jù)，人們往往望洋興嘆。因為以以前的數(shù)據(jù)處理能力，很難對大量的數(shù)據(jù)信息進(jìn)行處理分析。隨著計算機(jī)技術(shù)的發(fā)展，數(shù)據(jù)的處理能力得到了極大的提高，尤其是近幾年開啟的云時代，讓人們迎來了大數(shù)據(jù)時代，人們在處理數(shù)據(jù)的能力得到提高的時候，生產(chǎn)數(shù)據(jù)的能力也得到了極大的提升，因此獲得數(shù)據(jù)，處理數(shù)據(jù)是人們提高對數(shù)據(jù)的利用的關(guān)鍵。為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備的作用，我們不僅把資源運(yùn)用于課

3、堂教學(xué)，還利用系統(tǒng)的特色欄目開展課外活動，對學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?！敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備正常使用，我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后，中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn)，熟悉系統(tǒng)的使用和維護(hù)?！　【W(wǎng)絡(luò)爬蟲可以很容易的獲取互聯(lián)網(wǎng)上的信息，是我們獲取大量網(wǎng)絡(luò)上信息的高效工具，現(xiàn)如今有各種各樣的網(wǎng)絡(luò)爬蟲在以不同的方式獲取網(wǎng)絡(luò)上的數(shù)據(jù)，抓取網(wǎng)絡(luò)上有用的數(shù)據(jù)，方便人們對數(shù)據(jù)進(jìn)行分析和利用。本課題對于網(wǎng)絡(luò)爬蟲進(jìn)行研究，了解其在信息檢索中的應(yīng)用，并設(shè)計簡單的網(wǎng)絡(luò)爬蟲，實現(xiàn)其功能?！　?網(wǎng)絡(luò)爬蟲的基本概念　　網(wǎng)絡(luò)爬

4、蟲，又稱為網(wǎng)絡(luò)蜘蛛或Web信息采集器，是一個自動下載網(wǎng)頁的計算機(jī)程序或自動化腳本，是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲通常從一個稱為種子集的URL集合開始運(yùn)行，它首先將這些URL全部放入到一個有序的待爬行隊列里，按照一定的順序從中取出URL并下載所指向的頁面，分析頁面內(nèi)容，提取新的URL并存入待爬行URL?列中，如此重復(fù)上面的過程，直到URL隊列為空或滿足某個爬行終止條件，從而遍歷Web。該過程稱為網(wǎng)絡(luò)爬行[1]?！　τ诰W(wǎng)絡(luò)爬蟲，基本的工作流程首先要有一個初始的URL，這個URL可以是一開始自己確定好，也可以是由用戶輸入獲得，然后通過URL獲取到網(wǎng)頁的信息，接著抓取網(wǎng)頁內(nèi)的相關(guān)URL，對于滿

5、足條件的信息進(jìn)行抓取，直到所有的條件滿足才結(jié)束爬取的過程。當(dāng)然，這只是對于網(wǎng)絡(luò)爬蟲大概的一個爬取過程，對于不同的網(wǎng)絡(luò)爬蟲來說，爬取的過程是不同的，但是他們都需要有一個URL，然后還有過濾的條件，以及存儲所抓取到的信息的過程?！　?網(wǎng)絡(luò)爬蟲的類型為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備的作用，我們不僅把資源運(yùn)用于課堂教學(xué)，還利用系統(tǒng)的特色欄目開展課外活動，對學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確保“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備正常使用，我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后，中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn)，熟悉系統(tǒng)的使

6、用和維護(hù)?！　【W(wǎng)絡(luò)爬蟲根據(jù)不同的應(yīng)用，爬蟲系統(tǒng)在許多方面也存在著不同的差異，按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù)，我們可以將網(wǎng)絡(luò)爬蟲分為以下幾類：通用型網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。當(dāng)然，實際上的網(wǎng)絡(luò)爬蟲不會是單一的技術(shù)實現(xiàn)，通常是由多種網(wǎng)絡(luò)爬蟲技術(shù)結(jié)合而成[2]?！　⊥ㄓ镁W(wǎng)絡(luò)爬蟲　　通用網(wǎng)絡(luò)爬蟲通常用于搜索引擎，它能從一些種子URL爬取大量網(wǎng)站，甚至是整個Web，僅僅受限于時間或者其他方面的限制，它的邏輯相比于其他提取規(guī)則的復(fù)雜的網(wǎng)絡(luò)爬蟲較為簡單，但是其作用不可小覷。它主要用于門戶站點(diǎn)搜索引擎和為大型的Web服務(wù)提供商采集數(shù)據(jù)。由于商業(yè)原因，這方面性能優(yōu)秀爬蟲的技術(shù)細(xì)節(jié)很少披露，

7、但是此類的網(wǎng)絡(luò)爬蟲爬行的范圍和數(shù)量巨大，并且其爬行的速度快，存儲空間比較大。它們通常采用并行的方式，對爬行頁面的順序要求比較低，但是由于要刷新的頁面很多，很長時間頁面才能刷新一次。雖然其有一定缺陷，但是通用爬蟲適用于搜索引擎，有比較強(qiáng)的應(yīng)用價值，其結(jié)構(gòu)如圖1所示?！　⊥ㄓ镁W(wǎng)絡(luò)爬蟲通常會采取一些爬行策略來提高爬行效率，如：深度優(yōu)先策略、廣度優(yōu)先策略、最佳優(yōu)先策略等。為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用

網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽