mapreduce海量數(shù)據(jù)并行處理 總結(jié)

mapreduce海量數(shù)據(jù)并行處理 總結(jié)

ID:8815427

大?。?.36 MB

頁數(shù):82頁

時(shí)間:2018-04-08

mapreduce海量數(shù)據(jù)并行處理 總結(jié)_第1頁
mapreduce海量數(shù)據(jù)并行處理 總結(jié)_第2頁
mapreduce海量數(shù)據(jù)并行處理 總結(jié)_第3頁
mapreduce海量數(shù)據(jù)并行處理 總結(jié)_第4頁
mapreduce海量數(shù)據(jù)并行處理 總結(jié)_第5頁
資源描述:

《mapreduce海量數(shù)據(jù)并行處理 總結(jié)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、MapReduce海量數(shù)據(jù)并行處理復(fù)習(xí)大綱Ch.1.并行計(jì)算技術(shù)簡介1.為什么需要并行計(jì)算?提高計(jì)算機(jī)性能有哪些基本技術(shù)手段提高字長,流水線微體系結(jié)構(gòu)技術(shù),提高集成度,提升主頻迫切需要發(fā)展并行計(jì)算技術(shù)的主要原因1)單處理器性能提升達(dá)到極限2)爆炸性增長的大規(guī)模數(shù)據(jù)量2)超大的計(jì)算量/計(jì)算復(fù)雜度2.并行計(jì)算技術(shù)的分類有哪些主要的并行計(jì)算分類方法?1)按數(shù)據(jù)和指令處理結(jié)構(gòu):弗林(Flynn)分類2)按并行類型3)按存儲(chǔ)訪問構(gòu)架4)按系統(tǒng)類型5)按計(jì)算特征6)按并行程序設(shè)計(jì)模型/方法1)按數(shù)據(jù)和指令處理結(jié)構(gòu):弗林(Flynn)分類SISD:單指令單數(shù)據(jù)流傳統(tǒng)的單處理器

2、串行處理SIMD:單指令多數(shù)據(jù)流向量機(jī),信號(hào)處理系統(tǒng)MISD:多指令單數(shù)據(jù)流很少使用MIMD:多指令多數(shù)據(jù)流最常用,TOP500高性能計(jì)算機(jī)基本都屬于MIMD類型2)按并行類型分類位級(jí)并行(Bit-LevelParallelism)指令級(jí)并行(ILP:Instruction-LevelParallelism)線程級(jí)并行(Thread-LevelParallelism)數(shù)據(jù)級(jí)并行:一個(gè)大的數(shù)據(jù)塊劃分為小塊,分別由不同的處理器/線程處理任務(wù)級(jí)并行:一個(gè)大的計(jì)算任務(wù)劃分為子任務(wù)分別由不同的處理器/線程來處理3)按存儲(chǔ)訪問結(jié)構(gòu)分類A.共享內(nèi)存(SharedMemory)

3、所有處理器通過總線共享內(nèi)存多核處理器,SMP……也稱為UMA結(jié)構(gòu)(UniformMemoryAccess)B.分布共享存儲(chǔ)體系結(jié)構(gòu)各個(gè)處理器有本地存儲(chǔ)器同時(shí)再共享一個(gè)全局的存儲(chǔ)器C.分布式內(nèi)存(DistributedMemory)各個(gè)處理器使用本地獨(dú)立的存儲(chǔ)器B和C也統(tǒng)稱為NUMA結(jié)構(gòu)(Non-UniformMemoryAccess)4)按系統(tǒng)類型分類多核/眾核并行計(jì)算系統(tǒng)MC(Multicore/Manycore)或Chip-levelmultiprocessing,CMP對(duì)稱多處理系統(tǒng)SMP(SymmetricMultiprocessing)多個(gè)相同類型處理

4、器通過總線連接并共享存儲(chǔ)器大規(guī)模并行處理MPP(MassiveParallelProcessing)專用內(nèi)聯(lián)網(wǎng)連接一組處理器形成的一個(gè)計(jì)算系統(tǒng)集群(Cluster)網(wǎng)絡(luò)連接的一組商品計(jì)算機(jī)構(gòu)成的計(jì)算系統(tǒng)網(wǎng)格(Grid)用網(wǎng)絡(luò)連接遠(yuǎn)距離分布的一組異構(gòu)計(jì)算機(jī)構(gòu)成的計(jì)算系統(tǒng)5)按并行程序設(shè)計(jì)模型/方法分類共享內(nèi)存變量(SharedMemoryVariables)消息傳遞方式(MessagePassing)MapReduce方式3.并行計(jì)算的主要技術(shù)問題并行計(jì)算有哪些方面的主要技術(shù)問題?多核/多處理器網(wǎng)絡(luò)互連結(jié)構(gòu)技術(shù)存儲(chǔ)訪問體系結(jié)構(gòu)分布式數(shù)據(jù)與文件管理并行計(jì)算任務(wù)分解與

5、算法設(shè)計(jì)并行程序設(shè)計(jì)模型和方法數(shù)據(jù)同步訪問和通信控制可靠性設(shè)計(jì)與容錯(cuò)技術(shù)并行計(jì)算軟件框架平臺(tái)系統(tǒng)性能評(píng)價(jià)和程序并行度評(píng)估如何評(píng)估程序的可并行度(Amdahl定律)程序能得到多大并行加速依賴于該程序有多少可并行計(jì)算的比例。經(jīng)典的程序并行加速評(píng)估公式Amdahl定律:其中,S是加速比,P是程序可并行比例,N是處理器數(shù)目根據(jù)Amdahl定律:一個(gè)并行程序可加速程度是有限制的,并非可無限加速,并非處理器越多越好并行比例vs加速比50%=>最大2倍75%=>最大4倍90%=>最大10倍95%=>最大20倍4.MPI并行程序設(shè)計(jì)MessagePassingInterface

6、,基于消息傳遞的高性能并行計(jì)算編程接口5.什么是MapReduce概念MapReduce是面向大規(guī)模數(shù)據(jù)并行處理的:(1)基于集群的高性能并行計(jì)算平臺(tái)(ClusterInfrastructure),(硬件層)允許用市場上現(xiàn)成的普通PC或性能較高的刀架或機(jī)架式服務(wù)器,構(gòu)成一個(gè)包含數(shù)千個(gè)節(jié)點(diǎn)的分布式并行計(jì)算集群(2)并行程序開發(fā)與運(yùn)行框架(SoftwareFramework)(邏輯層)系統(tǒng)自動(dòng)提供了一個(gè)龐大但設(shè)計(jì)精良的并行計(jì)算軟件構(gòu)架,能自動(dòng)完成計(jì)算任務(wù)的并行化處理,自動(dòng)劃分計(jì)算數(shù)據(jù)和計(jì)算任務(wù),在集群節(jié)點(diǎn)上自動(dòng)分配和執(zhí)行子任務(wù)以及收集計(jì)算結(jié)果,將數(shù)據(jù)分布存儲(chǔ)、數(shù)據(jù)通

7、信、容錯(cuò)處理等并行計(jì)算中的很多復(fù)雜細(xì)節(jié)交由系統(tǒng)負(fù)責(zé)處理,大大減少了軟件開發(fā)人員的負(fù)擔(dān)(3)并行程序設(shè)計(jì)模型與方法(ProgrammingModel&Methodology)(用戶層)借助于函數(shù)式Lisp語言中的設(shè)計(jì)思想,提供了一種簡便的并行程序設(shè)計(jì)方法,用Map和Reduce兩個(gè)函數(shù)編程實(shí)現(xiàn)基本的并行計(jì)算任務(wù),提供了完整的并行編程接口,完成大規(guī)模數(shù)據(jù)處理6.為什么MapReduce如此重要?1)高效的大規(guī)模數(shù)據(jù)處理方法2)第一個(gè)不同于馮諾依曼結(jié)構(gòu)的、基于集群而非單機(jī)的計(jì)算方式的重大突破3)目前為止最為成功的基于大規(guī)模計(jì)算資源的并行計(jì)算抽象方法CH.2.MapRe

8、duce簡介1.MapR

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。