資源描述:
《主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究 摘要:信息時(shí)代,互聯(lián)網(wǎng)充斥著我們生活的方方面面,而搜索引擎的應(yīng)用為我們的生活帶來了極大的便利。對(duì)搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)的研究,對(duì)于提升搜索引擎效率有著重要的意義。本文分析了面向主題的搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn),并提出了相應(yīng)的方法和手段?! £P(guān)鍵詞:搜索引擎;網(wǎng)絡(luò)爬蟲;實(shí)現(xiàn);設(shè)計(jì);主題 中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2016)17-0023-02 Abstract:Intheinformationage,theInternetisfullofallaspectsofo
2、urlives,andtheapplicationofthesearchengineforourlifebroughtgreatconvenience.Theresearchontherealizationofwebcrawlerinsearchengineisofgreatsignificancetoimprovetheefficiencyofsearchengine.Thispaperanalyzestherealizationofthewebcrawlerinthesubjectorientedsearchengine,andputs
3、forwardthecorrespondingmethodsandmeasures. Keywords:SearchEngine;WebCrawler;Implementation;Design;Theme 1概述6 使用搜索引擎,人們可以方便快捷地在網(wǎng)上獲取有用信息。隨著大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)的通用搜索引擎面臨著索引規(guī)模、更新速度和個(gè)性化需求等多方面的挑戰(zhàn)。主題搜索引擎以提供分類精細(xì)、數(shù)據(jù)全面、更新實(shí)時(shí)的搜索服務(wù)為目標(biāo)。網(wǎng)絡(luò)爬蟲是搜索引擎的基礎(chǔ)模塊,是搜索引擎的重要基礎(chǔ)?! 【W(wǎng)絡(luò)爬蟲是一種能自動(dòng)提取網(wǎng)頁內(nèi)容的程序,利用網(wǎng)頁信息格式進(jìn)
4、行網(wǎng)頁分析,也可以定期搜集某個(gè)或某些網(wǎng)站的內(nèi)容,跟蹤網(wǎng)站的發(fā)展歷程。隨著網(wǎng)絡(luò)爬蟲技術(shù)的快速進(jìn)步,網(wǎng)絡(luò)爬蟲更加廣泛地運(yùn)用于網(wǎng)站結(jié)構(gòu)分析、個(gè)性化信息獲取以及用戶興趣挖掘等多種服務(wù)中?! ?主題搜索引擎簡述 搜索引擎是一種用來在萬維網(wǎng)上檢索資源文件的計(jì)算機(jī)程序。搜索引擎根據(jù)用戶輸入的檢索關(guān)鍵詞推測出用戶的查詢意圖,然后快速地返回相關(guān)的查詢結(jié)果信息供用戶使用?! 〈髷?shù)據(jù)時(shí)代互聯(lián)網(wǎng)數(shù)據(jù)爆炸性地增長,急切地需要一種快速、準(zhǔn)確細(xì)致、全面深入且更新及時(shí)的信息檢索方法。主題搜索引擎克服了傳統(tǒng)搜索引擎的諸多困難,使信息檢索變得更加精確細(xì)致,使搜索到的信息更加
5、全面深入,同時(shí)使專題信息和學(xué)科信息的更新更加及時(shí)?! ?網(wǎng)絡(luò)爬蟲簡述 網(wǎng)絡(luò)爬蟲從一個(gè)初始URL隊(duì)列開始,從中獲取一個(gè)URL,獲取網(wǎng)頁,從網(wǎng)頁中提取所有的URL,并將新的URL添加到URL隊(duì)列中。然后網(wǎng)絡(luò)爬蟲從隊(duì)列中獲得另一個(gè)URL,重復(fù)前面的過程,直到達(dá)到停止條件。這種爬取資源的方式存在著網(wǎng)絡(luò)連接不穩(wěn)定、網(wǎng)頁特征多樣化、URL不規(guī)范等一些問題?! ?網(wǎng)絡(luò)爬蟲分類6 第一個(gè)網(wǎng)絡(luò)爬蟲是美國麻省理工學(xué)院的學(xué)生MatthewGrey于1993年寫成,后來改進(jìn)了爬蟲程序并將其引入到搜索引擎中。隨著搜索引擎技術(shù)的不斷進(jìn)步,爬蟲程序也越來越復(fù)雜,后來
6、產(chǎn)生了通用爬蟲、限定爬蟲和主題爬蟲等幾種不同類型的爬蟲?! ?.1通用爬蟲 基本原理上文已分析,但爬取的范圍過大,爬取順序要求低,對(duì)爬取速度和存儲(chǔ)空間要求較高?! ?.2限定爬蟲 限定爬蟲是一種能爬取用戶感興趣的某一類網(wǎng)頁的爬蟲程序。但它不要求爬取所有的網(wǎng)頁,只需爬取某些特定種類的網(wǎng)頁即可。工作過程是:采用樸素貝葉斯方法用網(wǎng)頁樣本訓(xùn)練一個(gè)文本分類器,然后用這個(gè)文本分類器指導(dǎo)爬蟲的偏好,從爬蟲隊(duì)列中選擇出用戶感興趣的網(wǎng)頁?! ?.3主題爬蟲 主題爬蟲先確定一個(gè)或多個(gè)主題,根據(jù)一定的分析算法過濾與主題無關(guān)的URL,保留與主題相關(guān)的URL并
7、將其放入等待URLs隊(duì)列中;然后使用某種搜索策略從等待隊(duì)列中選擇下一個(gè)要抓取的URL,并重復(fù)上述過程,直到達(dá)到某種停止條件。 首先主題爬蟲需要判定當(dāng)前抓取與設(shè)定的主題的相關(guān)性,其次主題爬蟲采用按相似度大小抓取網(wǎng)頁的策略來抓取網(wǎng)頁。相比通用爬蟲它極大地節(jié)約了硬件和網(wǎng)絡(luò)資源,加快了爬取速度,還可以滿足人們對(duì)特定領(lǐng)域的需求?! ?主題爬蟲的爬取策略6 主題爬蟲以通用網(wǎng)絡(luò)爬蟲為基礎(chǔ),在此基礎(chǔ)上進(jìn)行優(yōu)化和擴(kuò)展,使其具備主題網(wǎng)絡(luò)爬蟲特有的功能,進(jìn)而實(shí)現(xiàn)面向主題的網(wǎng)頁信息提取?! ≈黝}爬蟲盡可能搜集與主題相關(guān)的網(wǎng)頁,減少下載無關(guān)網(wǎng)頁的可能。主題爬蟲與
8、通用爬蟲相比需要解決以下問題:主題的描述和定義、網(wǎng)頁內(nèi)容與主題相關(guān)性的判定、鏈接重要程度的判定、如何提高主題爬蟲資源覆蓋率?! ∶嫦蛑黝}的信息采集系統(tǒng)可分為4個(gè)部分,即主題集選取