資源描述:
《基于眾包協(xié)作的分布式爬蟲研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、碩士學位論文基于眾包協(xié)作的分布式爬蟲研究RESEARCHONDISTRIBUTEDCRAWLERBASEDONCROWD-SOURCING王相軍哈爾濱工業(yè)大學2016年12月萬方數(shù)據(jù)國內(nèi)圖書分類號:TP399學校代碼:10213國際圖書分類號:004.45密級:公開工程碩士學位論文基于眾包協(xié)作的分布式爬蟲研究碩士研究生:王相軍導師:葉允明教授申請學位:工程碩士學科:計算機技術(shù)所在單位:深圳研究生院答辯日期:2016年12月授予學位單位:哈爾濱工業(yè)大學萬方數(shù)據(jù)ClassifiedIndex:TP399U.D.C:004.45Dissertati
2、onfortheMaster’sDegreeofEngineeringRESEARCHONDISTRIBUTEDCRAWLERBASEDONCROWD-SOURCINGCandidate:XiangjunWangSupervisor:Prof.YunmingYeAcademicDegreeAppliedfor:Master’sDegreeofEngineeringSpecialty:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2016De
3、gree-Conferring-Institution:HarbinInstituteofTechnology萬方數(shù)據(jù)哈爾濱工業(yè)大學工程碩士學位論文摘要在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展和人類社交需求日益增長的時代,分布式爬蟲已被成熟的應(yīng)用到各大搜索引擎和檢索領(lǐng)域。本文提出眾包協(xié)作模式的爬蟲架構(gòu)也是分布式系統(tǒng),但任務(wù)分配方式采用“能者多勞”思想,可用資源越多的爬蟲節(jié)點,獲得更多任務(wù),從而提高資源利用率、任務(wù)執(zhí)行效率、節(jié)省執(zhí)行時間和費用開銷等。因此,研究基于眾包協(xié)作模式的最優(yōu)化任務(wù)分配方法有重要的學術(shù)意義和應(yīng)用前景。本文將眾包模式下的爬行任務(wù)分配問題分為靜態(tài)
4、爬行任務(wù)分配和動態(tài)爬行任務(wù)分配兩大部分。靜態(tài)爬行任務(wù)分配問題是指整個系統(tǒng)尚未執(zhí)行任務(wù),即任務(wù)序列沒有被執(zhí)行,爬蟲節(jié)點也沒有被分配任務(wù);動態(tài)爬行任務(wù)分配問題是指整個系統(tǒng)在運行過程中,受外界環(huán)境和內(nèi)部資源條件限制,各個任務(wù)和爬蟲節(jié)點的狀態(tài)動態(tài)變化。那么,在整體開銷盡可能小時,如何考慮眾包模式下爬蟲任務(wù)的靜態(tài)和動態(tài)分配問題,從而提高爬蟲系統(tǒng)執(zhí)行效率和資源利用率等,成為本文的主要研究內(nèi)容。針對靜態(tài)爬行任務(wù)分配問題,本文提出一種基于眾包協(xié)作的靜態(tài)爬行任務(wù)分配算法。該算法建立了多維度計算機資源模型,將爬蟲節(jié)點自身資源進行有效量化,采用優(yōu)先匹配啟發(fā)式爬行任
5、務(wù)分配算法進行任務(wù)分配,通過對費用目標函數(shù)的優(yōu)化求解,使得整個靜態(tài)爬行任務(wù)分配的費用最小。通過Matlab仿真驗證,該算法能在滿足系統(tǒng)需求的前提下,使得總費用最小。針對動態(tài)爬行任務(wù)分配問題,本文在靜態(tài)爬行任務(wù)分配算法的基礎(chǔ)上進行改進,提出基于時間模型的可信度定義,用來衡量每個爬蟲節(jié)點的時效性,設(shè)計了融合可信度的多維度計算機資源模型,采用變異的優(yōu)先匹配啟發(fā)式爬行任務(wù)分配算法進行任務(wù)的動態(tài)分配,通過對具有多約束條件的費用目標函數(shù)進行優(yōu)化求解,使得整個系統(tǒng)在動態(tài)變化的過程中,所用時間和費用都盡可能最小。通過Matlab仿真驗證,與傳統(tǒng)貪心算法相比,
6、基于眾包協(xié)作的靜態(tài)爬行任務(wù)分配算法和動態(tài)爬行任務(wù)分配算法更符合使用規(guī)律,且總費用開銷也更加合理,具有良好的可使用性。系統(tǒng)實驗結(jié)果表明,眾包協(xié)作模式的分布式爬行任務(wù)分配算法表現(xiàn)良好。關(guān)鍵詞:爬蟲;眾包協(xié)作;任務(wù)分配;最優(yōu)化-I-萬方數(shù)據(jù)哈爾濱工業(yè)大學工程碩士學位論文AbstractWiththedevelopmentofInternettechnologyandpeople'sgrowingsocialneedsofthetimes,distributedcrawlerhavebeenmaturelyappliedtothemajorsearc
7、henginesandinformationretrieval.Inthisdissertation,thecrawlerarchitectureisalsoadistributedsystem,butthetaskallocationmodeis“ablepersonshoulddomorework”.Itshouldperformmoretasks,ifthenodehavemoreresources.Inordertoimprovetheresourceutilization,efficiency,saveexecutiontimean
8、dcost.Therefore,itisofgreatacademicsignificanceandapplicationprospect,astostudythe