資源描述:
《主題爬蟲搜索策略研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、山東大學(xué)碩士學(xué)位論文主題爬蟲搜索策略研究姓名:陳叢叢申請學(xué)位級別:碩士專業(yè):計算機軟件與理論指導(dǎo)教師:石冰20090405山東大學(xué)碩士學(xué)位論文摘要隨著Web多元化信息的增長,傳統(tǒng)的搜索引擎,即通用搜索引擎己經(jīng)不能滿足人們對個性化信息檢索服務(wù)日益增長的需要。近年來,面向主題的搜索引擎應(yīng)運而生,以提供數(shù)據(jù)更全面精確、時間復(fù)雜度更低的因特網(wǎng)搜索服務(wù)。在主題搜索引擎中,網(wǎng)絡(luò)蜘蛛以何種搜索策略訪問Web,以提高效率,是近年來主題搜索引擎研究中的熱點問題之一。Web的動態(tài)性、異構(gòu)性和復(fù)雜性要求網(wǎng)絡(luò)蜘蛛能夠高效率地實現(xiàn)Web鏈接信息抓取。首先,本文基于現(xiàn)階段國內(nèi)外網(wǎng)絡(luò)爬蟲的研究進展,在分析和比較現(xiàn)有主題網(wǎng)
2、絡(luò)爬蟲搜索策略的優(yōu)缺點的基礎(chǔ)上,探討了網(wǎng)絡(luò)爬蟲主題價值預(yù)測的準確性、重要性。其次,作為主題網(wǎng)絡(luò)蜘蛛搜索策略的核心部分,本文對主題信息的表示和主題相關(guān)性判斷算法做了詳細介紹。對于網(wǎng)頁的主題相關(guān)性判別,使用目前較為常用的向量空間模型進行判別。再次,本文提出了HITS改進算法Topic.HITS,把主題特征加入到HITS算法中,網(wǎng)頁的鏈接結(jié)構(gòu)從主題這個更細化的粒度進行鏈接分析,針對每一個頁面,引入主題權(quán)威值向量,并進一步討論了網(wǎng)站級別的權(quán)威值和中心值向量計算公式。最后,為了提高網(wǎng)絡(luò)爬蟲的自適應(yīng)性,本文針對傳統(tǒng)網(wǎng)絡(luò)爬蟲存在的價值評價標準單一的問題,提出了一種基于綜合價值的綜合爬行策略,此策略根據(jù)不同
3、的搜索階段選擇采用符合實際情況的最優(yōu)搜索策略。本研究采用改進的腫S算法和自行設(shè)計的綜合爬行策略相結(jié)合,實現(xiàn)了一個基于多種搜索策略的主題搜索引擎網(wǎng)絡(luò)爬蟲系統(tǒng)原型。實驗結(jié)果表明,在此系統(tǒng)上不僅能夠準確、自動地爬行到主題相關(guān)網(wǎng)頁,而且還可節(jié)約網(wǎng)絡(luò)帶寬,具有良好的穩(wěn)定性。關(guān)鍵詞:主題搜索引擎:爬行策略;爬行算法;內(nèi)容分析;鏈接分析山東大學(xué)碩士學(xué)位論文ABSTRACTWiththegrowthofdiversifiedWebinformation,thetraditionalsearchengines,namely,generalsearchengineshavebeenunabletosatisfy
4、people’Spersonalizedinformationretrievalservice.Inrecentyears,thetopic-orientedsearchenginecameintobeinginordertoprovidemorecomprehensiveandaccuratedata,lowertimecomplexityofInteractsearchservicesInthesubjectsearchengines,whichsearchstrategyWebspidersUSetOvisitWebefficientlyisoneofhotissuesinthestu
5、dyofsearchenginesinrecentyears.Thedynamic,heterogeneousandcomplexnatureofnetworksdemandWebspidertocrawlWeblinkinformationefficiently.Firstofall,basedondomesticandinternationalnetworkresearchprogress,basedontheanalysisandcomparisonoftheexistingsearchstrategy’SadvantagesanddisadvantagesofWebspider,th
6、ispaperdiscusstheaccuracyandimportanceoftopicvaluepredictiontoWebdocuments.Secondly,asthecoreofatopicsearchstrategyofWebspider,thisarticaldetailedintroducetheexpressionoftOpicinformationandrelevancealgorithmbetweentopicandWebpage.Forthepagerelevancejudgement,vectorspacemodelwhichiscurrentlymoreconl
7、nlonlyisused.Thirdly,thispaperpresentsenhancedHITSAlgorithm,thatisTopic—HITS,putthetopiccharacteristicsintoHITSalgorithm,analyzethelinkstructureofWebpagesfromthetopicwhichisamoredetailedparticle,foreachpage