搜索引擎之爬蟲研究現(xiàn)狀簡介.ppt

搜索引擎之爬蟲研究現(xiàn)狀簡介.ppt

ID:49319155

大?。?15.00 KB

頁數(shù):18頁

時間:2020-02-04

搜索引擎之爬蟲研究現(xiàn)狀簡介.ppt_第1頁
搜索引擎之爬蟲研究現(xiàn)狀簡介.ppt_第2頁
搜索引擎之爬蟲研究現(xiàn)狀簡介.ppt_第3頁
搜索引擎之爬蟲研究現(xiàn)狀簡介.ppt_第4頁
搜索引擎之爬蟲研究現(xiàn)狀簡介.ppt_第5頁
資源描述:

《搜索引擎之爬蟲研究現(xiàn)狀簡介.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、搜索引擎爬蟲研究現(xiàn)狀簡介目前主要的熱點研究方向聚焦爬蟲技術(shù)智能爬蟲技術(shù)高性能爬蟲技術(shù)聚焦爬蟲(FocusedCrawler)對于大多用戶提出的與主題或領(lǐng)域相關(guān)的查詢需求,傳統(tǒng)的通用搜索引擎往往不能提供令人滿意的結(jié)果網(wǎng)頁。為了克服通用搜索引擎的不足,提出了面向主題的聚焦爬蟲的研究?,F(xiàn)在,聚焦爬蟲已成為爬蟲的研究熱點之一。什么是聚焦爬蟲聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(general—purposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主

2、題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。主要策略基于內(nèi)容評價的策略基于鏈接結(jié)構(gòu)策略基于未來目報價值評價的策略基于“綜合價值”評價的策略基于“動態(tài)”價值評價的策略(基于“動態(tài)”價值評價的搜索策略問題的研究受到重視。)例子“個性化”搜索引擎的研究專業(yè)搜索引擎的研究(垂直搜索)研究的現(xiàn)狀國內(nèi):1.北京理工大學汪濤等20042.南京大學王超等2004國外研究較多智能爬蟲隨著動態(tài)網(wǎng)頁技術(shù)的發(fā)展,網(wǎng)絡(luò)爬蟲越來越困難了。很多動態(tài)網(wǎng)頁是搜索不到的,例如bbs系統(tǒng),聊天室系統(tǒng)等。還有很多頁面是需要注冊為用戶并登錄才可以看到。所以網(wǎng)絡(luò)爬蟲技術(shù)也在逐步發(fā)展。智能網(wǎng)絡(luò)爬蟲具有一

3、定的人工智能,它能夠自動檢測這個網(wǎng)頁是否需要注冊并登錄,然后可以自動登錄,看到所有的頁面。智能爬蟲利用網(wǎng)絡(luò)爬蟲技術(shù)發(fā)展出來的新的網(wǎng)絡(luò)技術(shù)。這種檢測爬蟲可以自動登錄到聊天室、論壇等系統(tǒng),并隨時檢查各種信息,從中過濾出敏感信息來。并且可以將敏感信息的來源直接定位到ip地址(這個結(jié)合路由器和嗅探器是可以做到的),并且爬蟲可以跟蹤某個敏感話題的發(fā)展,并判斷其影響力。爬蟲不但可以跟蹤網(wǎng)頁形式的信息,還可以結(jié)合qq的協(xié)議,泡泡的協(xié)議等,直接檢測這些信息。智能爬蟲數(shù)據(jù)挖掘是近年的一個研究熱點,其中的web挖掘的研究很多結(jié)合了網(wǎng)絡(luò)爬蟲的研究。聚焦爬蟲和智能爬蟲的界限不是十分明顯。研

4、究現(xiàn)狀華東師范大學計算機應(yīng)用研究所,上海楊德仁等2006南京大學計算機科學與技術(shù)系軟件新技術(shù)國家重點實驗室朱煒等武漢大學信息管理學院嚴亞蘭等2003蘭州理工大學電氣工程與信息工程學院董瑞洪等2005UniversityofCalifornia,LosAngelesJeongheeYi等UniversityofPatras,ChristosMakris等2005高性能爬蟲算法的研究分布式爬蟲設(shè)計研究算法的研究結(jié)合人工智能的一些算法或改進算法基于非貪婪策略的網(wǎng)絡(luò)蜘蛛搜索算法2004基于模擬退火的網(wǎng)絡(luò)蜘蛛2003增量式Web信息采集結(jié)構(gòu)模型2005EffectiveWeb

5、dataextractionwithstandardXMLtechnologies2002EfficientcrawlingthroughURLorderingbasedonaHiddenMarkovModel(HMM)tolearnuserbrowsingpatterns還有對一些特殊格式網(wǎng)頁的抓取的研究分布式爬蟲設(shè)計研究(熱)基于p2p技術(shù)的分布式爬蟲CollegeofComputing,GeorgiaInstituteofTechnology,AtlantaAameekSingh1,MudhakarSrivatsa1,Ling?Liu1andTodd?Mill

6、er1等UniversityofOregon,EugeneDaniel?Stutzbach1Reza?Rejaie12005ShanghaiJiaotongUniversity2004Liu?Fei1,Ma?Fan-Yuan1,YeYun-Ming1,Li?Ming-Lu1andYuJia-Di1上海大學2005張博鋒劉鳳周傳飛鄒國兵等等基于移動代理的爬蟲華中科技大學2005石 柯 周利兵 陶文兵南京大學潘春華馮太明武港山UniversityofChileBlancoEncalada2002RicardoBaeza-YatesA1andJoséMiguelPique

7、rA1AnExtensibleMobile-Agent-BasedFrameworkforCoordinatingDistributedInformationRetrievalApplications2002其他基于網(wǎng)格技術(shù)的爬蟲基于CORBA的并行多元搜索引擎2005黃素珍,梁正友,陳寧江,蘇德富基于OGSA結(jié)構(gòu)的2005馮戰(zhàn)申,吳亞楨IglooGADistributedWebCrawlerBasedonGridService上海交通大學葉允明等的國家自然科學基金重大國際合作研究項目“Igloo分布式爬蟲系統(tǒng)的性能優(yōu)化”。等等還有好多其他關(guān)于分布式爬蟲的研究,

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。