資源描述:
《基于hadoop平臺(tái)的mapreduce作業(yè)調(diào)度算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號(hào)TP391學(xué)校代碼10590UDC004密級(jí)公開深圳大學(xué)碩士學(xué)位論文基于Hadoop平臺(tái)的MapReduce作業(yè)調(diào)度算法研究李旭煒學(xué)位類別工程碩士專業(yè)學(xué)位專業(yè)名稱軟件工程學(xué)院(系、所)計(jì)算機(jī)與軟件學(xué)院指導(dǎo)教師陳國(guó)良、劉剛原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文基于Hadoop平臺(tái)的MapReduce作業(yè)調(diào)度算法研究是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的作品或成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方
2、式標(biāo)明。本聲明的法律后果由本人承擔(dān)。論文作者簽名:日期:年月日基于Hadoop平臺(tái)的MapReduce作業(yè)調(diào)度算法研究摘要近年來隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)出現(xiàn)了爆發(fā)式的增長(zhǎng)。云計(jì)算具有高效性、可擴(kuò)展性等多種特征,因此被廣泛應(yīng)用于海量數(shù)據(jù)的分析和處理。MapReduce是一種全新的分布式計(jì)算模型,主要特點(diǎn)是對(duì)傳統(tǒng)分布式程序的細(xì)節(jié)進(jìn)行封裝,從而實(shí)現(xiàn)業(yè)務(wù)邏輯與實(shí)現(xiàn)細(xì)節(jié)的分離。Hadoop是MapReduce計(jì)算模型的開源實(shí)現(xiàn),并且得到了廣泛應(yīng)用。作業(yè)調(diào)度算法是Hadoop的核心算法之一,主要負(fù)責(zé)調(diào)度作業(yè)和分配集群資源
3、。作業(yè)調(diào)度算法的優(yōu)劣直接影響集群的性能,因此對(duì)其進(jìn)行研究具有非常重要的意義。首先,本文深入分析了當(dāng)前Hadoop所使用的三種常見調(diào)度算法FIFO、FairScheduler和CapacityScheduler,并且詳細(xì)介紹了業(yè)界所提出的相關(guān)改進(jìn)算法。在深入分析現(xiàn)有調(diào)度算法的優(yōu)劣后,針對(duì)本地化方面所存在數(shù)據(jù)本地化率不高、待執(zhí)行任務(wù)空閑等待時(shí)間過長(zhǎng)的問題,本文在公平調(diào)度算法的基礎(chǔ)之上,提出了基于數(shù)據(jù)預(yù)處理的調(diào)度算法(DP-L)。DP-L算法是對(duì)非本地化任務(wù)執(zhí)行調(diào)度操作之前,將其所需的輸入數(shù)據(jù)提前傳輸?shù)侥繕?biāo)節(jié)點(diǎn)的磁
4、盤上。此算法通過網(wǎng)絡(luò)資源和一部分磁盤空間的消耗作為代價(jià),達(dá)到提升集群整體的數(shù)據(jù)本地化率和執(zhí)行效率的目的。然后,針對(duì)資源分配方面所存在的執(zhí)行效率低和集群響應(yīng)時(shí)間過長(zhǎng)等問題,本文提出了基于關(guān)鍵資源的調(diào)度算法(DP-R)。DP-R算法通過計(jì)算用戶和作業(yè)的關(guān)鍵資源份額,選擇關(guān)鍵資源份額最小的用戶和作業(yè)進(jìn)行資源分配。此算法在保證用戶和作業(yè)公平性的前提下,有效提高了集群中資源的使用效率。最后,本文設(shè)計(jì)四個(gè)實(shí)驗(yàn)來驗(yàn)證算法的可行性和性能。實(shí)驗(yàn)結(jié)果表明本文所提出的算法提升了任務(wù)的執(zhí)行效率、縮短了集群的響應(yīng)時(shí)間、提高了數(shù)據(jù)的本地
5、化率。關(guān)鍵詞:云計(jì)算;Hadoop;MapReduce;資源分配;數(shù)據(jù)本地化ITheresearchofMapReducejobschedulingalgorithmbasedontheHadoopplatformAbstractWiththedevelopmentofscienceandtechnologyinrecentyears,datahasanexplosiveincrement.Withthecharacteristicsofhighefficiencyandscalability,cloudco
6、mputingiswidelyusedtoanalyzeandprocessthemassiveamountofdata.MapReduceisanewkindofdistributedcomputingmodel.ThemaincharacteristicofMapReduceistoencapsulatethedetailsoftraditionaldistributedprogram.MapReduceseparatesthebusinesslogicandtheimplementationdetail
7、.HadoopisanopensourceimplementationofMapReducecomputingmodelandhasbeenwidelyused.JobschedulingalgorithmisoneofthecorealgorithmofHadoopandmainlyresponsibleforschedulingtasksandallocatingresources.Jobschedulingalgorithmaffectstheperformanceofthecluster,sother
8、esearchofjobschedulingalgorithmisverysignificant.Firstly,itisintroducedthreekindsofcommonlyusedjobschedulingalgorithminthisdissertation,includingFIFO,FairScheduler,CapacitySchedulerandsomeimprovedalgor