mapreduce海量數(shù)據(jù)并行處理總結(jié)

mapreduce海量數(shù)據(jù)并行處理總結(jié)

ID:8806392

大小:8.36 MB

頁數(shù):82頁

時間:2018-04-08

mapreduce海量數(shù)據(jù)并行處理總結(jié)_第1頁
mapreduce海量數(shù)據(jù)并行處理總結(jié)_第2頁
mapreduce海量數(shù)據(jù)并行處理總結(jié)_第3頁
mapreduce海量數(shù)據(jù)并行處理總結(jié)_第4頁
mapreduce海量數(shù)據(jù)并行處理總結(jié)_第5頁
資源描述:

《mapreduce海量數(shù)據(jù)并行處理總結(jié)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、MapReduce海量數(shù)據(jù)并行處理復(fù)習(xí)大綱Ch.1.并行計算技術(shù)簡介1.為什么需要并行計算?提高計算機性能有哪些基本技術(shù)手段提高字長,流水線微體系結(jié)構(gòu)技術(shù),提高集成度,提升主頻迫切需要發(fā)展并行計算技術(shù)的主要原因1)單處理器性能提升達到極限2)爆炸性增長的大規(guī)模數(shù)據(jù)量2)超大的計算量/計算復(fù)雜度2.并行計算技術(shù)的分類有哪些主要的并行計算分類方法?1)按數(shù)據(jù)和指令處理結(jié)構(gòu):弗林(Flynn)分類2)按并行類型3)按存儲訪問構(gòu)架4)按系統(tǒng)類型5)按計算特征6)按并行程序設(shè)計模型/方法1)按數(shù)據(jù)和指令處理結(jié)構(gòu):弗林(Flynn)分類SISD:單指令單數(shù)據(jù)流傳統(tǒng)的單處理器串行處

2、理SIMD:單指令多數(shù)據(jù)流向量機,信號處理系統(tǒng)MISD:多指令單數(shù)據(jù)流很少使用MIMD:多指令多數(shù)據(jù)流最常用,TOP500高性能計算機基本都屬于MIMD類型2)按并行類型分類位級并行(Bit-LevelParallelism)指令級并行(ILP:Instruction-LevelParallelism)線程級并行(Thread-LevelParallelism)數(shù)據(jù)級并行:一個大的數(shù)據(jù)塊劃分為小塊,分別由不同的處理器/線程處理任務(wù)級并行:一個大的計算任務(wù)劃分為子任務(wù)分別由不同的處理器/線程來處理3)按存儲訪問結(jié)構(gòu)分類A.共享內(nèi)存(SharedMemory)所有處理器通

3、過總線共享內(nèi)存多核處理器,SMP……也稱為UMA結(jié)構(gòu)(UniformMemoryAccess)B.分布共享存儲體系結(jié)構(gòu)各個處理器有本地存儲器同時再共享一個全局的存儲器C.分布式內(nèi)存(DistributedMemory)各個處理器使用本地獨立的存儲器B和C也統(tǒng)稱為NUMA結(jié)構(gòu)(Non-UniformMemoryAccess)4)按系統(tǒng)類型分類多核/眾核并行計算系統(tǒng)MC(Multicore/Manycore)或Chip-levelmultiprocessing,CMP對稱多處理系統(tǒng)SMP(SymmetricMultiprocessing)多個相同類型處理器通過總線連接并共

4、享存儲器大規(guī)模并行處理MPP(MassiveParallelProcessing)專用內(nèi)聯(lián)網(wǎng)連接一組處理器形成的一個計算系統(tǒng)集群(Cluster)網(wǎng)絡(luò)連接的一組商品計算機構(gòu)成的計算系統(tǒng)網(wǎng)格(Grid)用網(wǎng)絡(luò)連接遠(yuǎn)距離分布的一組異構(gòu)計算機構(gòu)成的計算系統(tǒng)5)按并行程序設(shè)計模型/方法分類共享內(nèi)存變量(SharedMemoryVariables)消息傳遞方式(MessagePassing)MapReduce方式3.并行計算的主要技術(shù)問題并行計算有哪些方面的主要技術(shù)問題?多核/多處理器網(wǎng)絡(luò)互連結(jié)構(gòu)技術(shù)存儲訪問體系結(jié)構(gòu)分布式數(shù)據(jù)與文件管理并行計算任務(wù)分解與算法設(shè)計并行程序設(shè)計模型

5、和方法數(shù)據(jù)同步訪問和通信控制可靠性設(shè)計與容錯技術(shù)并行計算軟件框架平臺系統(tǒng)性能評價和程序并行度評估如何評估程序的可并行度(Amdahl定律)程序能得到多大并行加速依賴于該程序有多少可并行計算的比例。經(jīng)典的程序并行加速評估公式Amdahl定律:其中,S是加速比,P是程序可并行比例,N是處理器數(shù)目根據(jù)Amdahl定律:一個并行程序可加速程度是有限制的,并非可無限加速,并非處理器越多越好并行比例vs加速比50%=>最大2倍75%=>最大4倍90%=>最大10倍95%=>最大20倍4.MPI并行程序設(shè)計MessagePassingInterface,基于消息傳遞的高性能并行計算

6、編程接口5.什么是MapReduce概念MapReduce是面向大規(guī)模數(shù)據(jù)并行處理的:(1)基于集群的高性能并行計算平臺(ClusterInfrastructure),(硬件層)允許用市場上現(xiàn)成的普通PC或性能較高的刀架或機架式服務(wù)器,構(gòu)成一個包含數(shù)千個節(jié)點的分布式并行計算集群(2)并行程序開發(fā)與運行框架(SoftwareFramework)(邏輯層)系統(tǒng)自動提供了一個龐大但設(shè)計精良的并行計算軟件構(gòu)架,能自動完成計算任務(wù)的并行化處理,自動劃分計算數(shù)據(jù)和計算任務(wù),在集群節(jié)點上自動分配和執(zhí)行子任務(wù)以及收集計算結(jié)果,將數(shù)據(jù)分布存儲、數(shù)據(jù)通信、容錯處理等并行計算中的很多復(fù)雜細(xì)

7、節(jié)交由系統(tǒng)負(fù)責(zé)處理,大大減少了軟件開發(fā)人員的負(fù)擔(dān)(3)并行程序設(shè)計模型與方法(ProgrammingModel&Methodology)(用戶層)借助于函數(shù)式Lisp語言中的設(shè)計思想,提供了一種簡便的并行程序設(shè)計方法,用Map和Reduce兩個函數(shù)編程實現(xiàn)基本的并行計算任務(wù),提供了完整的并行編程接口,完成大規(guī)模數(shù)據(jù)處理6.為什么MapReduce如此重要?1)高效的大規(guī)模數(shù)據(jù)處理方法2)第一個不同于馮諾依曼結(jié)構(gòu)的、基于集群而非單機的計算方式的重大突破3)目前為止最為成功的基于大規(guī)模計算資源的并行計算抽象方法CH.2.MapReduce簡介1.MapR

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。