主題爬蟲搜索Web頁面策略的研究

主題爬蟲搜索Web頁面策略的研究

ID:36825676

大?。?.06 MB

頁數(shù):68頁

時間:2019-05-16

主題爬蟲搜索Web頁面策略的研究_第1頁
主題爬蟲搜索Web頁面策略的研究_第2頁
主題爬蟲搜索Web頁面策略的研究_第3頁
主題爬蟲搜索Web頁面策略的研究_第4頁
主題爬蟲搜索Web頁面策略的研究_第5頁
資源描述:

《主題爬蟲搜索Web頁面策略的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、中南大學(xué)碩士學(xué)位論文主題爬蟲搜索Web頁面策略的研究姓名:袁浩申請學(xué)位級別:碩士專業(yè):計算機(jī)科學(xué)與技術(shù)指導(dǎo)教師:黃煙波20090501摘要隨著互聯(lián)網(wǎng)的高速發(fā)展,通用爬蟲在浩瀚如海的網(wǎng)絡(luò)世界里,對高效提取有效網(wǎng)頁信息顯得越來越力不從心。而主題爬蟲足解決通用搜索引擎可擴(kuò)展性限制的有效方法。它可以指導(dǎo)抓取URL鏈接,并有效的析取與目標(biāo)網(wǎng)頁相關(guān)度高的網(wǎng)頁內(nèi)容。本文通過制定框架,并以一些性能1,七匕313標(biāo)為依據(jù)來評價主題爬蟲算法,并結(jié)合分析研究以及開發(fā)之間的偏差可以得到它的最優(yōu)性能。本文分析了各種不同類型的爬蟲算法,并討論他們的性能表現(xiàn)。本文

2、中提出了一種基于分層馬爾科夫模型來區(qū)別網(wǎng)站和網(wǎng)頁文本之間的傳輸方法?;谶@一模型提出了兩種不同的方法計算網(wǎng)站排名,一個是集中式的,一個是分散式的。這兩種方法都根據(jù)Web圖來得到網(wǎng)站排名。這兩種方法作用是相同的,但是改進(jìn)的算法需要為搜索引擎的建立端到端的架構(gòu),這一架構(gòu)為基于鏈接的排名計算提供了理論基礎(chǔ),并使計算分散性的網(wǎng)絡(luò)規(guī)模圖成為可行。此外,網(wǎng)站排名可以在本地或者整個網(wǎng)絡(luò)中進(jìn)行計算。通過修改Lucene和Heritrix開源組件建立主題搜索引擎,實(shí)證結(jié)果表明,使用這個模型產(chǎn)生的排名與PageRank產(chǎn)生的排名相比性能是相近甚至更優(yōu)的。

3、本文還提出了一種文本分類方法,通過分析網(wǎng)頁標(biāo)題,對抓取的網(wǎng)頁內(nèi)容主題進(jìn)行分類,這一方法可以降低原本計算復(fù)雜的文本分類方法的工作強(qiáng)度。實(shí)驗(yàn)表明,使用這一分類算法,可以有效地提高計算效率。關(guān)鍵詞主題爬蟲,搜索引擎,馬爾科夫規(guī)則,PageRank算法,文本分類算法AbstractWiththehi曲speeddevelopmentoftheIntemet,Generalpurposewebcrawlerbecomeincreasinglyunabletoextacttheinformationofthewebpageeffectivelyw

4、hiletheircrawlinginthisvastnetwork.Topicalcrawlersareincreasinglyseenasawaytoaddressthescalabilitylimitationsofuniversalsearchengines.Thecontextavailabletosuchcrawlerscanguidethenavigationoflinkswiththegoalofefficientlylocatinghighlyrelevanttargetpages.Thethesisdevelope

5、aframeworktofairlyevaluatetopicalcrawlingalgorithmsunderanumberofperformancemetrics.Itfindthatthebestperformanceisachievedbyanovelcombinationofexplorativeandexploitativebias,andintroduceanevolutionarycrawlerthatsurpassestheperformanceofthebestnonadaptivecrawleraftersuff

6、icientlylongcrawls.Inthisthesisalsoanalyzethecomputationalcomplexityofthevariouscrawlersanddiscusshowperformanceandcomplexityscalewithavailableresources.Inthisthesis,itproposeanewapproachbasedonaLayeredMarkovModeltodistinguishtransitionsamongWebsitesandWebdocuments.Base

7、donthismodel,weproposetwodifferentapproachesforcomputationofrankingofWebsite,acentralizedoneandadecentralizedone.Bothproduceawell—definedrankingforagivenWebgraph.Thenitformallyprovethatthetwoapproachesareequivalent.Thisprovidesatheoreticalfoundationfordecomposinglink-ba

8、sedrankcomputationandmakesthecomputationforaWeb—scalegraphfeasibleinadecentralizedfashion,suchasrequiredforWeb

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。