資源描述:
《網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、為了確保“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)。網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用 摘要:本文從網(wǎng)絡(luò)爬蟲的基本概念、網(wǎng)絡(luò)爬蟲的主要作用、網(wǎng)絡(luò)爬蟲的各種類型和網(wǎng)絡(luò)爬蟲的發(fā)展方向著手進(jìn)行研究。各種爬蟲的研究對于我們現(xiàn)如今的意義也相當(dāng)重大,通過網(wǎng)絡(luò)爬蟲爬取的特定信息通過專業(yè)分析,可以影響著我們的生活,如經(jīng)濟(jì)、健康、工作效率等方面,本文主要運(yùn)用Python編寫網(wǎng)絡(luò)爬蟲,實現(xiàn)網(wǎng)絡(luò)爬蟲的功能。了解網(wǎng)絡(luò)爬蟲如何爬取信息,如何存儲所爬取的信息,從而認(rèn)識其在信息檢索中的關(guān)鍵作用。
2、 關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;信息檢索;Python 中圖分類號:文獻(xiàn)標(biāo)識碼:A文章編號:1007--0095-03 1緒論 當(dāng)今社會,數(shù)據(jù)顯得越來越重要,以往人們也意識到數(shù)據(jù)的重要性,但是以前的情況面對浩如煙海的數(shù)據(jù),人們往往望洋興嘆。因為以以前的數(shù)據(jù)處理能力,很難對大量的數(shù)據(jù)信息進(jìn)行處理分析。隨著計算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)的處理能力得到了極大的提高,尤其是近幾年開啟的云時代,讓人們迎來了大數(shù)據(jù)時代,人們在處理數(shù)據(jù)的能力得到提高的時候,生產(chǎn)數(shù)據(jù)的能力也得到了極大的提升,因此獲得數(shù)據(jù),處理數(shù)據(jù)是人們提高對數(shù)據(jù)的利用的關(guān)鍵。為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備的作用,我們不僅把資源運(yùn)用于課
3、堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動,對學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)?! 【W(wǎng)絡(luò)爬蟲可以很容易的獲取互聯(lián)網(wǎng)上的信息,是我們獲取大量網(wǎng)絡(luò)上信息的高效工具,現(xiàn)如今有各種各樣的網(wǎng)絡(luò)爬蟲在以不同的方式獲取網(wǎng)絡(luò)上的數(shù)據(jù),抓取網(wǎng)絡(luò)上有用的數(shù)據(jù),方便人們對數(shù)據(jù)進(jìn)行分析和利用。本課題對于網(wǎng)絡(luò)爬蟲進(jìn)行研究,了解其在信息檢索中的應(yīng)用,并設(shè)計簡單的網(wǎng)絡(luò)爬蟲,實現(xiàn)其功能?! ?網(wǎng)絡(luò)爬蟲的基本概念 網(wǎng)絡(luò)爬
4、蟲,又稱為網(wǎng)絡(luò)蜘蛛或Web信息采集器,是一個自動下載網(wǎng)頁的計算機(jī)程序或自動化腳本,是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲通常從一個稱為種子集的URL集合開始運(yùn)行,它首先將這些URL全部放入到一個有序的待爬行隊列里,按照一定的順序從中取出URL并下載所指向的頁面,分析頁面內(nèi)容,提取新的URL并存入待爬行URL?列中,如此重復(fù)上面的過程,直到URL隊列為空或滿足某個爬行終止條件,從而遍歷Web。該過程稱為網(wǎng)絡(luò)爬行[1]?! τ诰W(wǎng)絡(luò)爬蟲,基本的工作流程首先要有一個初始的URL,這個URL可以是一開始自己確定好,也可以是由用戶輸入獲得,然后通過URL獲取到網(wǎng)頁的信息,接著抓取網(wǎng)頁內(nèi)的相關(guān)URL,對于滿
5、足條件的信息進(jìn)行抓取,直到所有的條件滿足才結(jié)束爬取的過程。當(dāng)然,這只是對于網(wǎng)絡(luò)爬蟲大概的一個爬取過程,對于不同的網(wǎng)絡(luò)爬蟲來說,爬取的過程是不同的,但是他們都需要有一個URL,然后還有過濾的條件,以及存儲所抓取到的信息的過程?! ?網(wǎng)絡(luò)爬蟲的類型為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備的作用,我們不僅把資源運(yùn)用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動,對學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確保“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使
6、用和維護(hù)?! 【W(wǎng)絡(luò)爬蟲根據(jù)不同的應(yīng)用,爬蟲系統(tǒng)在許多方面也存在著不同的差異,按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),我們可以將網(wǎng)絡(luò)爬蟲分為以下幾類:通用型網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。當(dāng)然,實際上的網(wǎng)絡(luò)爬蟲不會是單一的技術(shù)實現(xiàn),通常是由多種網(wǎng)絡(luò)爬蟲技術(shù)結(jié)合而成[2]?! ⊥ㄓ镁W(wǎng)絡(luò)爬蟲 通用網(wǎng)絡(luò)爬蟲通常用于搜索引擎,它能從一些種子URL爬取大量網(wǎng)站,甚至是整個Web,僅僅受限于時間或者其他方面的限制,它的邏輯相比于其他提取規(guī)則的復(fù)雜的網(wǎng)絡(luò)爬蟲較為簡單,但是其作用不可小覷。它主要用于門戶站點(diǎn)搜索引擎和為大型的Web服務(wù)提供商采集數(shù)據(jù)。由于商業(yè)原因,這方面性能優(yōu)秀爬蟲的技術(shù)細(xì)節(jié)很少披露,
7、但是此類的網(wǎng)絡(luò)爬蟲爬行的范圍和數(shù)量巨大,并且其爬行的速度快,存儲空間比較大。它們通常采用并行的方式,對爬行頁面的順序要求比較低,但是由于要刷新的頁面很多,很長時間頁面才能刷新一次。雖然其有一定缺陷,但是通用爬蟲適用于搜索引擎,有比較強(qiáng)的應(yīng)用價值,其結(jié)構(gòu)如圖1所示?! ⊥ㄓ镁W(wǎng)絡(luò)爬蟲通常會采取一些爬行策略來提高爬行效率,如:深度優(yōu)先策略、廣度優(yōu)先策略、最佳優(yōu)先策略等。為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項目設(shè)