基于眾包協(xié)作的分布式爬蟲研究

基于眾包協(xié)作的分布式爬蟲研究

ID:34711327

大?。?.00 MB

頁數(shù):64頁

時間:2019-03-09

基于眾包協(xié)作的分布式爬蟲研究_第1頁
基于眾包協(xié)作的分布式爬蟲研究_第2頁
基于眾包協(xié)作的分布式爬蟲研究_第3頁
基于眾包協(xié)作的分布式爬蟲研究_第4頁
基于眾包協(xié)作的分布式爬蟲研究_第5頁
資源描述:

《基于眾包協(xié)作的分布式爬蟲研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、碩士學位論文基于眾包協(xié)作的分布式爬蟲研究RESEARCHONDISTRIBUTEDCRAWLERBASEDONCROWD-SOURCING王相軍哈爾濱工業(yè)大學2016年12月萬方數(shù)據(jù)國內(nèi)圖書分類號:TP399學校代碼:10213國際圖書分類號:004.45密級:公開工程碩士學位論文基于眾包協(xié)作的分布式爬蟲研究碩士研究生:王相軍導師:葉允明教授申請學位:工程碩士學科:計算機技術(shù)所在單位:深圳研究生院答辯日期:2016年12月授予學位單位:哈爾濱工業(yè)大學萬方數(shù)據(jù)ClassifiedIndex:TP399U.D.C:004.45Dissertati

2、onfortheMaster’sDegreeofEngineeringRESEARCHONDISTRIBUTEDCRAWLERBASEDONCROWD-SOURCINGCandidate:XiangjunWangSupervisor:Prof.YunmingYeAcademicDegreeAppliedfor:Master’sDegreeofEngineeringSpecialty:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2016De

3、gree-Conferring-Institution:HarbinInstituteofTechnology萬方數(shù)據(jù)哈爾濱工業(yè)大學工程碩士學位論文摘要在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展和人類社交需求日益增長的時代,分布式爬蟲已被成熟的應(yīng)用到各大搜索引擎和檢索領(lǐng)域。本文提出眾包協(xié)作模式的爬蟲架構(gòu)也是分布式系統(tǒng),但任務(wù)分配方式采用“能者多勞”思想,可用資源越多的爬蟲節(jié)點,獲得更多任務(wù),從而提高資源利用率、任務(wù)執(zhí)行效率、節(jié)省執(zhí)行時間和費用開銷等。因此,研究基于眾包協(xié)作模式的最優(yōu)化任務(wù)分配方法有重要的學術(shù)意義和應(yīng)用前景。本文將眾包模式下的爬行任務(wù)分配問題分為靜態(tài)

4、爬行任務(wù)分配和動態(tài)爬行任務(wù)分配兩大部分。靜態(tài)爬行任務(wù)分配問題是指整個系統(tǒng)尚未執(zhí)行任務(wù),即任務(wù)序列沒有被執(zhí)行,爬蟲節(jié)點也沒有被分配任務(wù);動態(tài)爬行任務(wù)分配問題是指整個系統(tǒng)在運行過程中,受外界環(huán)境和內(nèi)部資源條件限制,各個任務(wù)和爬蟲節(jié)點的狀態(tài)動態(tài)變化。那么,在整體開銷盡可能小時,如何考慮眾包模式下爬蟲任務(wù)的靜態(tài)和動態(tài)分配問題,從而提高爬蟲系統(tǒng)執(zhí)行效率和資源利用率等,成為本文的主要研究內(nèi)容。針對靜態(tài)爬行任務(wù)分配問題,本文提出一種基于眾包協(xié)作的靜態(tài)爬行任務(wù)分配算法。該算法建立了多維度計算機資源模型,將爬蟲節(jié)點自身資源進行有效量化,采用優(yōu)先匹配啟發(fā)式爬行任

5、務(wù)分配算法進行任務(wù)分配,通過對費用目標函數(shù)的優(yōu)化求解,使得整個靜態(tài)爬行任務(wù)分配的費用最小。通過Matlab仿真驗證,該算法能在滿足系統(tǒng)需求的前提下,使得總費用最小。針對動態(tài)爬行任務(wù)分配問題,本文在靜態(tài)爬行任務(wù)分配算法的基礎(chǔ)上進行改進,提出基于時間模型的可信度定義,用來衡量每個爬蟲節(jié)點的時效性,設(shè)計了融合可信度的多維度計算機資源模型,采用變異的優(yōu)先匹配啟發(fā)式爬行任務(wù)分配算法進行任務(wù)的動態(tài)分配,通過對具有多約束條件的費用目標函數(shù)進行優(yōu)化求解,使得整個系統(tǒng)在動態(tài)變化的過程中,所用時間和費用都盡可能最小。通過Matlab仿真驗證,與傳統(tǒng)貪心算法相比,

6、基于眾包協(xié)作的靜態(tài)爬行任務(wù)分配算法和動態(tài)爬行任務(wù)分配算法更符合使用規(guī)律,且總費用開銷也更加合理,具有良好的可使用性。系統(tǒng)實驗結(jié)果表明,眾包協(xié)作模式的分布式爬行任務(wù)分配算法表現(xiàn)良好。關(guān)鍵詞:爬蟲;眾包協(xié)作;任務(wù)分配;最優(yōu)化-I-萬方數(shù)據(jù)哈爾濱工業(yè)大學工程碩士學位論文AbstractWiththedevelopmentofInternettechnologyandpeople'sgrowingsocialneedsofthetimes,distributedcrawlerhavebeenmaturelyappliedtothemajorsearc

7、henginesandinformationretrieval.Inthisdissertation,thecrawlerarchitectureisalsoadistributedsystem,butthetaskallocationmodeis“ablepersonshoulddomorework”.Itshouldperformmoretasks,ifthenodehavemoreresources.Inordertoimprovetheresourceutilization,efficiency,saveexecutiontimean

8、dcost.Therefore,itisofgreatacademicsignificanceandapplicationprospect,astostudythe

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。