hadoop云計(jì)算技術(shù)手冊(cè)

hadoop云計(jì)算技術(shù)手冊(cè)

ID:7289003

大?。?31.87 KB

頁(yè)數(shù):17頁(yè)

時(shí)間:2018-02-10

hadoop云計(jì)算技術(shù)手冊(cè)_第1頁(yè)
hadoop云計(jì)算技術(shù)手冊(cè)_第2頁(yè)
hadoop云計(jì)算技術(shù)手冊(cè)_第3頁(yè)
hadoop云計(jì)算技術(shù)手冊(cè)_第4頁(yè)
hadoop云計(jì)算技術(shù)手冊(cè)_第5頁(yè)
資源描述:

《hadoop云計(jì)算技術(shù)手冊(cè)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、Hadoop云計(jì)算技術(shù)手冊(cè)作者:zbwd中國(guó)云計(jì)算論壇Email:xjtuzb@ieee.orgGTCRC@XJTU序言Hadoop是一個(gè)開源的分布式并行計(jì)算平臺(tái),它主要由MapReduce的算法執(zhí)行和一個(gè)分布式的文件系統(tǒng)等兩部分組成。Hadoop起源于DougCutting大牛領(lǐng)導(dǎo)開發(fā)的Nutch搜索引擎項(xiàng)目的子項(xiàng)目?,F(xiàn)在是Apache軟件基金會(huì)管理的開源項(xiàng)目。本文主要介紹Hadoop及相關(guān)技術(shù),從Hadoop的起源開始講述,主要涵蓋了MapReduce算法思想,基本框架,運(yùn)行流程和編程粒度等內(nèi)容,以期給入門者提供一個(gè)關(guān)于Hadoop的技術(shù)簡(jiǎn)介

2、和研究參考。關(guān)于Hadoop的安裝指南和編程范例并不在本文敘述范圍內(nèi),有需要者請(qǐng)參考其它資料。因筆者水平實(shí)在太有限了,文中如有疏漏錯(cuò)誤請(qǐng)不吝指出,萬(wàn)分感謝。本人資料多數(shù)來(lái)源于互聯(lián)網(wǎng)的技術(shù)文檔,附錄列出引文列表,特此致謝原文作者。最后,發(fā)自內(nèi)心、無(wú)與倫比地感謝Google、Apache軟件基金會(huì)和DougCutting帶給我們?nèi)绱撕?jiǎn)約、優(yōu)雅的技術(shù)。OK,讓我們開始吧!去尋找那神奇的小飛象。Hadoop云計(jì)算技術(shù)介紹第2頁(yè)共17頁(yè)目錄?引言——Hadoop從何而來(lái)?算法思想——Hadoop是怎么思考的?基本架構(gòu)——Hadoop是如何構(gòu)成的?運(yùn)行流程—

3、—Hadoop是如何工作的?任務(wù)粒度——Hadoop是如何并行的?參考文獻(xiàn)Hadoop云計(jì)算技術(shù)介紹第3頁(yè)共17頁(yè)1.引言——Hadoop從何而來(lái)自從Google工程師JeffreyDean提出MapReduce編程思想,MapReduce便在Google的各種Web應(yīng)用中釋放著魔力。然而,也許出于技術(shù)保密的目的,Google公司并沒(méi)有透露其MapReduce的實(shí)現(xiàn)細(xì)節(jié)。幸運(yùn)的是,DougCutting開發(fā)的Hadoop作為MapReduce開源實(shí)現(xiàn),讓MapReduce這么平易近人地走到了我們面前。2006年1月,DougCutting因其在開

4、源項(xiàng)目Nutch和Lucene的卓越表現(xiàn)受邀加入Yahoo公司,專職在Hadoop項(xiàng)目上進(jìn)行開發(fā)。現(xiàn)在,DougCutting大牛已經(jīng)加盟Cloudera(一家從事Hadoop產(chǎn)品商業(yè)化及技術(shù)支持的公司)。注:Hadoop名稱的來(lái)歷——Hadoop原本是小DougCutting的大象玩具。作為GoogleMapReduce技術(shù)的開源實(shí)現(xiàn),Hadoop理所當(dāng)然地借鑒了Google的GoogleFileSystem文件系統(tǒng)、MapReduce并行算法以及BigTable。因此,Hadoop也是一個(gè)能夠分布式處理大規(guī)模海量數(shù)據(jù)的軟件框架,這一點(diǎn)不足為奇

5、。當(dāng)然,這一切都是在可靠、高效、可擴(kuò)展的基礎(chǔ)上。Hadoop的可靠性——因?yàn)镠adoop假設(shè)計(jì)算元素和存儲(chǔ)會(huì)出現(xiàn)故障,因?yàn)樗S護(hù)多個(gè)工作數(shù)據(jù)副本,在出現(xiàn)故障時(shí)可以對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop的高效性——在MapReduceHadoop云計(jì)算技術(shù)介紹第4頁(yè)共17頁(yè)的思想下,Hadoop是并行工作的,以加快任務(wù)處理速度。Hadoop的可擴(kuò)展——依賴于部署Hadoop軟件框架計(jì)算集群的規(guī)模,Hadoop的運(yùn)算是可擴(kuò)展的,具有處理PB級(jí)數(shù)據(jù)的能力。雖然Hadoop自身由Java語(yǔ)言開發(fā),但它除了使用Java語(yǔ)言進(jìn)行編程外,同樣支持多種編程語(yǔ)言,

6、如C++。Hadoop的長(zhǎng)期目標(biāo)是提供世界級(jí)的分布式計(jì)算工具,也是對(duì)下一代業(yè)務(wù)(如搜索結(jié)果分析等)提供支持的Web擴(kuò)展(web-scale)服務(wù)。2.算法思想——Hadoop是怎么思考的MapReduce主要反映了映射和規(guī)約兩個(gè)概念,分別完成映射操作和規(guī)約操作。映射操作按照需求操作獨(dú)立元素組里面的每個(gè)元素,這個(gè)操作是獨(dú)立的,然后新建一個(gè)元素組保存剛生成的中間結(jié)果。因?yàn)樵亟M之間是獨(dú)立的,所以映射操作基本上是高度并行的。規(guī)約操作對(duì)一個(gè)元素組的元素進(jìn)行合適的歸并。雖然有可能規(guī)約操作不如映射操作并行度那么高,但是求得一個(gè)簡(jiǎn)單答案,大規(guī)模的運(yùn)行仍然可能相

7、對(duì)獨(dú)立,所以規(guī)約操作也有高度并行的可能。Hadoop云計(jì)算技術(shù)介紹第5頁(yè)共17頁(yè)圖1MapReduce把數(shù)據(jù)集的大規(guī)模操作分配到網(wǎng)絡(luò)互聯(lián)的若干節(jié)點(diǎn)上進(jìn)行,以實(shí)現(xiàn)其可靠性;每個(gè)節(jié)點(diǎn)都會(huì)向主節(jié)點(diǎn)發(fā)送心跳信息,周期性地把執(zhí)行進(jìn)度和狀態(tài)報(bào)告回來(lái)。假如某個(gè)節(jié)點(diǎn)的心跳信息停止發(fā)送,或者超過(guò)預(yù)定時(shí)隙,主節(jié)點(diǎn)標(biāo)記該節(jié)點(diǎn)為死亡狀態(tài),并把先前分配到它的數(shù)據(jù)發(fā)送到其它節(jié)點(diǎn)。其中,每個(gè)操作使用命名文件的原子操作,避免并行線程之間沖突;當(dāng)文件被改名時(shí),系統(tǒng)可能會(huì)把它復(fù)制到任務(wù)名以外的其它名字節(jié)點(diǎn)上。由于規(guī)約操作的并行能力較弱,主節(jié)點(diǎn)盡可能把規(guī)約操作調(diào)度在同一個(gè)節(jié)點(diǎn)上,或者

8、距離操作數(shù)據(jù)最近(或次近,最近節(jié)點(diǎn)出現(xiàn)故障時(shí))的節(jié)點(diǎn)上。MapReduce技術(shù)的優(yōu)勢(shì)在于對(duì)映射和規(guī)約操作的合理抽象,使得程序員在編寫大規(guī)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。