主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究

ID：31364356

大小：107.50 KB

頁數(shù)：6頁

時(shí)間：2019-01-09

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第1頁

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第2頁

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第3頁

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第4頁

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究_第5頁

資源描述：

《主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究　　摘要：信息時(shí)代，互聯(lián)網(wǎng)充斥著我們生活的方方面面，而搜索引擎的應(yīng)用為我們的生活帶來了極大的便利。對(duì)搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)的研究，對(duì)于提升搜索引擎效率有著重要的意義。本文分析了面向主題的搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)，并提出了相應(yīng)的方法和手段?！　￡P(guān)鍵詞：搜索引擎；網(wǎng)絡(luò)爬蟲；實(shí)現(xiàn)；設(shè)計(jì)；主題　　中圖分類號(hào)：TP393文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1009-3044（2016）17-0023-02　　Abstract：Intheinformationage，theInternetisfullofallaspectsofo

2、urlives，andtheapplicationofthesearchengineforourlifebroughtgreatconvenience.Theresearchontherealizationofwebcrawlerinsearchengineisofgreatsignificancetoimprovetheefficiencyofsearchengine.Thispaperanalyzestherealizationofthewebcrawlerinthesubjectorientedsearchengine，andputs

3、forwardthecorrespondingmethodsandmeasures.　　Keywords：SearchEngine；WebCrawler；Implementation；Design；Theme　　1概述6　　使用搜索引擎，人們可以方便快捷地在網(wǎng)上獲取有用信息。隨著大數(shù)據(jù)時(shí)代的到來，傳統(tǒng)的通用搜索引擎面臨著索引規(guī)模、更新速度和個(gè)性化需求等多方面的挑戰(zhàn)。主題搜索引擎以提供分類精細(xì)、數(shù)據(jù)全面、更新實(shí)時(shí)的搜索服務(wù)為目標(biāo)。網(wǎng)絡(luò)爬蟲是搜索引擎的基礎(chǔ)模塊，是搜索引擎的重要基礎(chǔ)?！　【W(wǎng)絡(luò)爬蟲是一種能自動(dòng)提取網(wǎng)頁內(nèi)容的程序，利用網(wǎng)頁信息格式進(jìn)

4、行網(wǎng)頁分析，也可以定期搜集某個(gè)或某些網(wǎng)站的內(nèi)容，跟蹤網(wǎng)站的發(fā)展歷程。隨著網(wǎng)絡(luò)爬蟲技術(shù)的快速進(jìn)步，網(wǎng)絡(luò)爬蟲更加廣泛地運(yùn)用于網(wǎng)站結(jié)構(gòu)分析、個(gè)性化信息獲取以及用戶興趣挖掘等多種服務(wù)中?！　?主題搜索引擎簡述　　搜索引擎是一種用來在萬維網(wǎng)上檢索資源文件的計(jì)算機(jī)程序。搜索引擎根據(jù)用戶輸入的檢索關(guān)鍵詞推測出用戶的查詢意圖，然后快速地返回相關(guān)的查詢結(jié)果信息供用戶使用?！　〈髷?shù)據(jù)時(shí)代互聯(lián)網(wǎng)數(shù)據(jù)爆炸性地增長，急切地需要一種快速、準(zhǔn)確細(xì)致、全面深入且更新及時(shí)的信息檢索方法。主題搜索引擎克服了傳統(tǒng)搜索引擎的諸多困難，使信息檢索變得更加精確細(xì)致，使搜索到的信息更加

5、全面深入，同時(shí)使專題信息和學(xué)科信息的更新更加及時(shí)?！　?網(wǎng)絡(luò)爬蟲簡述　　網(wǎng)絡(luò)爬蟲從一個(gè)初始URL隊(duì)列開始，從中獲取一個(gè)URL，獲取網(wǎng)頁，從網(wǎng)頁中提取所有的URL，并將新的URL添加到URL隊(duì)列中。然后網(wǎng)絡(luò)爬蟲從隊(duì)列中獲得另一個(gè)URL，重復(fù)前面的過程，直到達(dá)到停止條件。這種爬取資源的方式存在著網(wǎng)絡(luò)連接不穩(wěn)定、網(wǎng)頁特征多樣化、URL不規(guī)范等一些問題?！　?網(wǎng)絡(luò)爬蟲分類6　　第一個(gè)網(wǎng)絡(luò)爬蟲是美國麻省理工學(xué)院的學(xué)生MatthewGrey于1993年寫成，后來改進(jìn)了爬蟲程序并將其引入到搜索引擎中。隨著搜索引擎技術(shù)的不斷進(jìn)步，爬蟲程序也越來越復(fù)雜，后來

6、產(chǎn)生了通用爬蟲、限定爬蟲和主題爬蟲等幾種不同類型的爬蟲?！　?.1通用爬蟲　　基本原理上文已分析，但爬取的范圍過大，爬取順序要求低，對(duì)爬取速度和存儲(chǔ)空間要求較高?！　?.2限定爬蟲　　限定爬蟲是一種能爬取用戶感興趣的某一類網(wǎng)頁的爬蟲程序。但它不要求爬取所有的網(wǎng)頁，只需爬取某些特定種類的網(wǎng)頁即可。工作過程是：采用樸素貝葉斯方法用網(wǎng)頁樣本訓(xùn)練一個(gè)文本分類器，然后用這個(gè)文本分類器指導(dǎo)爬蟲的偏好，從爬蟲隊(duì)列中選擇出用戶感興趣的網(wǎng)頁?！　?.3主題爬蟲　　主題爬蟲先確定一個(gè)或多個(gè)主題，根據(jù)一定的分析算法過濾與主題無關(guān)的URL，保留與主題相關(guān)的URL并

7、將其放入等待URLs隊(duì)列中；然后使用某種搜索策略從等待隊(duì)列中選擇下一個(gè)要抓取的URL，并重復(fù)上述過程，直到達(dá)到某種停止條件。　　首先主題爬蟲需要判定當(dāng)前抓取與設(shè)定的主題的相關(guān)性，其次主題爬蟲采用按相似度大小抓取網(wǎng)頁的策略來抓取網(wǎng)頁。相比通用爬蟲它極大地節(jié)約了硬件和網(wǎng)絡(luò)資源，加快了爬取速度，還可以滿足人們對(duì)特定領(lǐng)域的需求?！　?主題爬蟲的爬取策略6　　主題爬蟲以通用網(wǎng)絡(luò)爬蟲為基礎(chǔ)，在此基礎(chǔ)上進(jìn)行優(yōu)化和擴(kuò)展，使其具備主題網(wǎng)絡(luò)爬蟲特有的功能，進(jìn)而實(shí)現(xiàn)面向主題的網(wǎng)頁信息提取?！　≈黝}爬蟲盡可能搜集與主題相關(guān)的網(wǎng)頁，減少下載無關(guān)網(wǎng)頁的可能。主題爬蟲與

8、通用爬蟲相比需要解決以下問題：主題的描述和定義、網(wǎng)頁內(nèi)容與主題相關(guān)性的判定、鏈接重要程度的判定、如何提高主題爬蟲資源覆蓋率?！　∶嫦蛑黝}的信息采集系統(tǒng)可分為4個(gè)部分，即主題集選取

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究

主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究

相關(guān)文章

相關(guān)標(biāo)簽