主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究

ID:31364356

大小:107.50 KB

頁數(shù):6頁

時(shí)間:2019-01-09

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第1頁
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第2頁
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第3頁
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第4頁
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第5頁
資源描述:

《主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究  摘要:信息時(shí)代,互聯(lián)網(wǎng)充斥著我們生活的方方面面,而搜索引擎的應(yīng)用為我們的生活帶來了極大的便利。對(duì)搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)的研究,對(duì)于提升搜索引擎效率有著重要的意義。本文分析了面向主題的搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn),并提出了相應(yīng)的方法和手段?! £P(guān)鍵詞:搜索引擎;網(wǎng)絡(luò)爬蟲;實(shí)現(xiàn);設(shè)計(jì);主題  中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2016)17-0023-02  Abstract:Intheinformationage,theInternetisfullofallaspectsofo

2、urlives,andtheapplicationofthesearchengineforourlifebroughtgreatconvenience.Theresearchontherealizationofwebcrawlerinsearchengineisofgreatsignificancetoimprovetheefficiencyofsearchengine.Thispaperanalyzestherealizationofthewebcrawlerinthesubjectorientedsearchengine,andputs

3、forwardthecorrespondingmethodsandmeasures.  Keywords:SearchEngine;WebCrawler;Implementation;Design;Theme  1概述6  使用搜索引擎,人們可以方便快捷地在網(wǎng)上獲取有用信息。隨著大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)的通用搜索引擎面臨著索引規(guī)模、更新速度和個(gè)性化需求等多方面的挑戰(zhàn)。主題搜索引擎以提供分類精細(xì)、數(shù)據(jù)全面、更新實(shí)時(shí)的搜索服務(wù)為目標(biāo)。網(wǎng)絡(luò)爬蟲是搜索引擎的基礎(chǔ)模塊,是搜索引擎的重要基礎(chǔ)?! 【W(wǎng)絡(luò)爬蟲是一種能自動(dòng)提取網(wǎng)頁內(nèi)容的程序,利用網(wǎng)頁信息格式進(jìn)

4、行網(wǎng)頁分析,也可以定期搜集某個(gè)或某些網(wǎng)站的內(nèi)容,跟蹤網(wǎng)站的發(fā)展歷程。隨著網(wǎng)絡(luò)爬蟲技術(shù)的快速進(jìn)步,網(wǎng)絡(luò)爬蟲更加廣泛地運(yùn)用于網(wǎng)站結(jié)構(gòu)分析、個(gè)性化信息獲取以及用戶興趣挖掘等多種服務(wù)中?! ?主題搜索引擎簡述  搜索引擎是一種用來在萬維網(wǎng)上檢索資源文件的計(jì)算機(jī)程序。搜索引擎根據(jù)用戶輸入的檢索關(guān)鍵詞推測出用戶的查詢意圖,然后快速地返回相關(guān)的查詢結(jié)果信息供用戶使用?! 〈髷?shù)據(jù)時(shí)代互聯(lián)網(wǎng)數(shù)據(jù)爆炸性地增長,急切地需要一種快速、準(zhǔn)確細(xì)致、全面深入且更新及時(shí)的信息檢索方法。主題搜索引擎克服了傳統(tǒng)搜索引擎的諸多困難,使信息檢索變得更加精確細(xì)致,使搜索到的信息更加

5、全面深入,同時(shí)使專題信息和學(xué)科信息的更新更加及時(shí)?! ?網(wǎng)絡(luò)爬蟲簡述  網(wǎng)絡(luò)爬蟲從一個(gè)初始URL隊(duì)列開始,從中獲取一個(gè)URL,獲取網(wǎng)頁,從網(wǎng)頁中提取所有的URL,并將新的URL添加到URL隊(duì)列中。然后網(wǎng)絡(luò)爬蟲從隊(duì)列中獲得另一個(gè)URL,重復(fù)前面的過程,直到達(dá)到停止條件。這種爬取資源的方式存在著網(wǎng)絡(luò)連接不穩(wěn)定、網(wǎng)頁特征多樣化、URL不規(guī)范等一些問題?! ?網(wǎng)絡(luò)爬蟲分類6  第一個(gè)網(wǎng)絡(luò)爬蟲是美國麻省理工學(xué)院的學(xué)生MatthewGrey于1993年寫成,后來改進(jìn)了爬蟲程序并將其引入到搜索引擎中。隨著搜索引擎技術(shù)的不斷進(jìn)步,爬蟲程序也越來越復(fù)雜,后來

6、產(chǎn)生了通用爬蟲、限定爬蟲和主題爬蟲等幾種不同類型的爬蟲?! ?.1通用爬蟲  基本原理上文已分析,但爬取的范圍過大,爬取順序要求低,對(duì)爬取速度和存儲(chǔ)空間要求較高?! ?.2限定爬蟲  限定爬蟲是一種能爬取用戶感興趣的某一類網(wǎng)頁的爬蟲程序。但它不要求爬取所有的網(wǎng)頁,只需爬取某些特定種類的網(wǎng)頁即可。工作過程是:采用樸素貝葉斯方法用網(wǎng)頁樣本訓(xùn)練一個(gè)文本分類器,然后用這個(gè)文本分類器指導(dǎo)爬蟲的偏好,從爬蟲隊(duì)列中選擇出用戶感興趣的網(wǎng)頁?! ?.3主題爬蟲  主題爬蟲先確定一個(gè)或多個(gè)主題,根據(jù)一定的分析算法過濾與主題無關(guān)的URL,保留與主題相關(guān)的URL并

7、將其放入等待URLs隊(duì)列中;然后使用某種搜索策略從等待隊(duì)列中選擇下一個(gè)要抓取的URL,并重復(fù)上述過程,直到達(dá)到某種停止條件。  首先主題爬蟲需要判定當(dāng)前抓取與設(shè)定的主題的相關(guān)性,其次主題爬蟲采用按相似度大小抓取網(wǎng)頁的策略來抓取網(wǎng)頁。相比通用爬蟲它極大地節(jié)約了硬件和網(wǎng)絡(luò)資源,加快了爬取速度,還可以滿足人們對(duì)特定領(lǐng)域的需求?! ?主題爬蟲的爬取策略6  主題爬蟲以通用網(wǎng)絡(luò)爬蟲為基礎(chǔ),在此基礎(chǔ)上進(jìn)行優(yōu)化和擴(kuò)展,使其具備主題網(wǎng)絡(luò)爬蟲特有的功能,進(jìn)而實(shí)現(xiàn)面向主題的網(wǎng)頁信息提取?! ≈黝}爬蟲盡可能搜集與主題相關(guān)的網(wǎng)頁,減少下載無關(guān)網(wǎng)頁的可能。主題爬蟲與

8、通用爬蟲相比需要解決以下問題:主題的描述和定義、網(wǎng)頁內(nèi)容與主題相關(guān)性的判定、鏈接重要程度的判定、如何提高主題爬蟲資源覆蓋率?! ∶嫦蛑黝}的信息采集系統(tǒng)可分為4個(gè)部分,即主題集選取

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。