資源描述:
《主題爬蟲搜索Web頁面策略的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中南大學(xué)碩士學(xué)位論文主題爬蟲搜索Web頁面策略的研究姓名:袁浩申請學(xué)位級別:碩士專業(yè):計算機(jī)科學(xué)與技術(shù)指導(dǎo)教師:黃煙波20090501摘要隨著互聯(lián)網(wǎng)的高速發(fā)展,通用爬蟲在浩瀚如海的網(wǎng)絡(luò)世界里,對高效提取有效網(wǎng)頁信息顯得越來越力不從心。而主題爬蟲足解決通用搜索引擎可擴(kuò)展性限制的有效方法。它可以指導(dǎo)抓取URL鏈接,并有效的析取與目標(biāo)網(wǎng)頁相關(guān)度高的網(wǎng)頁內(nèi)容。本文通過制定框架,并以一些性能1,七匕313標(biāo)為依據(jù)來評價主題爬蟲算法,并結(jié)合分析研究以及開發(fā)之間的偏差可以得到它的最優(yōu)性能。本文分析了各種不同類型的爬蟲算法,并討論他們的性能表現(xiàn)。本文
2、中提出了一種基于分層馬爾科夫模型來區(qū)別網(wǎng)站和網(wǎng)頁文本之間的傳輸方法?;谶@一模型提出了兩種不同的方法計算網(wǎng)站排名,一個是集中式的,一個是分散式的。這兩種方法都根據(jù)Web圖來得到網(wǎng)站排名。這兩種方法作用是相同的,但是改進(jìn)的算法需要為搜索引擎的建立端到端的架構(gòu),這一架構(gòu)為基于鏈接的排名計算提供了理論基礎(chǔ),并使計算分散性的網(wǎng)絡(luò)規(guī)模圖成為可行。此外,網(wǎng)站排名可以在本地或者整個網(wǎng)絡(luò)中進(jìn)行計算。通過修改Lucene和Heritrix開源組件建立主題搜索引擎,實(shí)證結(jié)果表明,使用這個模型產(chǎn)生的排名與PageRank產(chǎn)生的排名相比性能是相近甚至更優(yōu)的。
3、本文還提出了一種文本分類方法,通過分析網(wǎng)頁標(biāo)題,對抓取的網(wǎng)頁內(nèi)容主題進(jìn)行分類,這一方法可以降低原本計算復(fù)雜的文本分類方法的工作強(qiáng)度。實(shí)驗(yàn)表明,使用這一分類算法,可以有效地提高計算效率。關(guān)鍵詞主題爬蟲,搜索引擎,馬爾科夫規(guī)則,PageRank算法,文本分類算法AbstractWiththehi曲speeddevelopmentoftheIntemet,Generalpurposewebcrawlerbecomeincreasinglyunabletoextacttheinformationofthewebpageeffectivelyw
4、hiletheircrawlinginthisvastnetwork.Topicalcrawlersareincreasinglyseenasawaytoaddressthescalabilitylimitationsofuniversalsearchengines.Thecontextavailabletosuchcrawlerscanguidethenavigationoflinkswiththegoalofefficientlylocatinghighlyrelevanttargetpages.Thethesisdevelope
5、aframeworktofairlyevaluatetopicalcrawlingalgorithmsunderanumberofperformancemetrics.Itfindthatthebestperformanceisachievedbyanovelcombinationofexplorativeandexploitativebias,andintroduceanevolutionarycrawlerthatsurpassestheperformanceofthebestnonadaptivecrawleraftersuff
6、icientlylongcrawls.Inthisthesisalsoanalyzethecomputationalcomplexityofthevariouscrawlersanddiscusshowperformanceandcomplexityscalewithavailableresources.Inthisthesis,itproposeanewapproachbasedonaLayeredMarkovModeltodistinguishtransitionsamongWebsitesandWebdocuments.Base
7、donthismodel,weproposetwodifferentapproachesforcomputationofrankingofWebsite,acentralizedoneandadecentralizedone.Bothproduceawell—definedrankingforagivenWebgraph.Thenitformallyprovethatthetwoapproachesareequivalent.Thisprovidesatheoreticalfoundationfordecomposinglink-ba
8、sedrankcomputationandmakesthecomputationforaWeb—scalegraphfeasibleinadecentralizedfashion,suchasrequiredforWeb