資源描述:
《面向主題的網(wǎng)絡爬蟲——網(wǎng)頁信息抽取---畢業(yè)論文》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、本科畢業(yè)論文面向主題的網(wǎng)絡爬蟲——網(wǎng)頁信息抽取Subject-orientedcrawler—Webinformationextraction姓名:學號:學院:軟件學院系:軟件工程專業(yè):軟件工程年級:指導教師: 年月摘 要隨著Internet的迅猛發(fā)展,網(wǎng)絡資源急劇增加,信息更加多元化,同時給通用搜索引擎帶來了極大的挑戰(zhàn)。因為通用搜索引擎是面向所有的Web信息檢索者的,龐大的網(wǎng)絡信息規(guī)模和高速響應要求,使其檢索結果不盡人意。主題搜索引擎,是為了進一步提高搜索結果相關度的新一代搜索引擎。它提供了分類更準確、數(shù)據(jù)更全面、更新更及時的因特網(wǎng)搜索服務。主題
2、搜索引擎中的信息采集,以及主題爬蟲系統(tǒng)的搜索策略的研究,對主題搜索引擎的應用與發(fā)展都具有非常重要的作用。本文在對搜索引擎的演變和發(fā)展進行全面的綜述以后,對通用搜索引擎和主題搜索引擎進行了性能的比較。引出主題搜索引擎的重要組成部分——主題爬蟲,并分析了主題爬蟲的基本結構和工作原理。隨后,對網(wǎng)絡爬蟲的一些經(jīng)典頁面相似度算法進行了評價。同時,重點討論了URL搜索策略,介紹了我們的網(wǎng)絡爬蟲系統(tǒng)對Web頁面的信息采集,并加以實現(xiàn)。最后,展示了我們實現(xiàn)的網(wǎng)絡爬蟲。論文主要研究了以下4個問題:(1)對主題爬蟲的工作原理,功能模塊及基本技術進行了研究。(2)討論了
3、主題爬蟲經(jīng)典的頁面相似度算法:基于鏈接的頁面相似度算法和基于內容的頁面相似度算法;討論了URL搜索策略算法。(3)研究并實現(xiàn)了基于HTML的網(wǎng)頁的信息抽取。(4)實現(xiàn)了本系統(tǒng)的界面。關鍵詞:網(wǎng)絡爬蟲;URL搜索策略;Web信息抽取VIAbstractWiththerapiddevelopmentofInternet,networkresourcesincreasesharply,andinformationbecomesmorediversitythanbefore.Atthesametime,generalsearchenginesarefaci
4、ngaseverechallenge.Becausethegoalofgeneralsearchenginesisinformationoftheentireweb,largescaleofnetworkinformationandrequirementofhigh-speedresponse,whichmakesthesearchresultcan'tmeetouranticipation.Thesubject-orientedsearchengine,anew-generationsearchengineaimingforincreasingt
5、hecorrelationdegreeofsearchingresults,makesimprovementoftheinternetsearchingservicewithbetterdivision,moredata,andhigherspeed.Theresearchofinformationcollectionandsearchingstrategyofthesubject-orientedsearchengineplaysagreatroleinthedevelopmentofthesubject-orientedsearchengine
6、s.Inthispaper,afteracomprehensiveoverviewoftheevolutionanddevelopmentofsearchengines,wecomparedtheperformanceoftraditionalandsubject-orientedsearchengines.Afterthat,subject-orientedspiderisraisedasthemostimportantpartofsearchengines.Weanalyzedbasicstructureandworkingprinciplea
7、boutit.Afterintroducingtheclassicnetworkpagesimilarityalgorithms,weevaluatethem.IntheaspectofURLsearchingstrategy,wefoundanimprovementanddiscussedaboutit.Atthesametime,weanalyzedthestrategyofpageinformationextractionbasedonHTML.Thepaperdoesresearchmainlyinfollowingfouraspects:
8、Firstly,westudiedtheworkingprinciple,functionalmodulesandbasi