資源描述:
《mapreduce海量數(shù)據(jù)并行處理 總結(jié)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、MapReduce海量數(shù)據(jù)并行處理復(fù)習(xí)大綱Ch.1.并行計(jì)算技術(shù)簡(jiǎn)介1.為什么需要并行計(jì)算?提高計(jì)算機(jī)性能有哪些基本技術(shù)手段提高字長(zhǎng),流水線微體系結(jié)構(gòu)技術(shù),提高集成度,提升主頻迫切需要發(fā)展并行計(jì)算技術(shù)的主要原因1)單處理器性能提升達(dá)到極限2)爆炸性增長(zhǎng)的大規(guī)模數(shù)據(jù)量2)超大的計(jì)算量/計(jì)算復(fù)雜度2.并行計(jì)算技術(shù)的分類(lèi)有哪些主要的并行計(jì)算分類(lèi)方法?1)按數(shù)據(jù)和指令處理結(jié)構(gòu):弗林(Flynn)分類(lèi)2)按并行類(lèi)型3)按存儲(chǔ)訪問(wèn)構(gòu)架4)按系統(tǒng)類(lèi)型5)按計(jì)算特征6)按并行程序設(shè)計(jì)模型/方法1)按數(shù)據(jù)和指令處理結(jié)構(gòu):弗林(Flynn)分類(lèi)SISD:?jiǎn)沃噶顔螖?shù)據(jù)流傳統(tǒng)的單處理器
2、串行處理SIMD:?jiǎn)沃噶疃鄶?shù)據(jù)流向量機(jī),信號(hào)處理系統(tǒng)MISD:多指令單數(shù)據(jù)流很少使用MIMD:多指令多數(shù)據(jù)流最常用,TOP500高性能計(jì)算機(jī)基本都屬于MIMD類(lèi)型2)按并行類(lèi)型分類(lèi)位級(jí)并行(Bit-LevelParallelism)指令級(jí)并行(ILP:Instruction-LevelParallelism)線程級(jí)并行(Thread-LevelParallelism)數(shù)據(jù)級(jí)并行:一個(gè)大的數(shù)據(jù)塊劃分為小塊,分別由不同的處理器/線程處理任務(wù)級(jí)并行:一個(gè)大的計(jì)算任務(wù)劃分為子任務(wù)分別由不同的處理器/線程來(lái)處理3)按存儲(chǔ)訪問(wèn)結(jié)構(gòu)分類(lèi)A.共享內(nèi)存(SharedMemory)
3、所有處理器通過(guò)總線共享內(nèi)存多核處理器,SMP……也稱(chēng)為UMA結(jié)構(gòu)(UniformMemoryAccess)B.分布共享存儲(chǔ)體系結(jié)構(gòu)各個(gè)處理器有本地存儲(chǔ)器同時(shí)再共享一個(gè)全局的存儲(chǔ)器C.分布式內(nèi)存(DistributedMemory)各個(gè)處理器使用本地獨(dú)立的存儲(chǔ)器B和C也統(tǒng)稱(chēng)為NUMA結(jié)構(gòu)(Non-UniformMemoryAccess)4)按系統(tǒng)類(lèi)型分類(lèi)多核/眾核并行計(jì)算系統(tǒng)MC(Multicore/Manycore)或Chip-levelmultiprocessing,CMP對(duì)稱(chēng)多處理系統(tǒng)SMP(SymmetricMultiprocessing)多個(gè)相同類(lèi)型處理
4、器通過(guò)總線連接并共享存儲(chǔ)器大規(guī)模并行處理MPP(MassiveParallelProcessing)專(zhuān)用內(nèi)聯(lián)網(wǎng)連接一組處理器形成的一個(gè)計(jì)算系統(tǒng)集群(Cluster)網(wǎng)絡(luò)連接的一組商品計(jì)算機(jī)構(gòu)成的計(jì)算系統(tǒng)網(wǎng)格(Grid)用網(wǎng)絡(luò)連接遠(yuǎn)距離分布的一組異構(gòu)計(jì)算機(jī)構(gòu)成的計(jì)算系統(tǒng)5)按并行程序設(shè)計(jì)模型/方法分類(lèi)共享內(nèi)存變量(SharedMemoryVariables)消息傳遞方式(MessagePassing)MapReduce方式3.并行計(jì)算的主要技術(shù)問(wèn)題并行計(jì)算有哪些方面的主要技術(shù)問(wèn)題?多核/多處理器網(wǎng)絡(luò)互連結(jié)構(gòu)技術(shù)存儲(chǔ)訪問(wèn)體系結(jié)構(gòu)分布式數(shù)據(jù)與文件管理并行計(jì)算任務(wù)分解與
5、算法設(shè)計(jì)并行程序設(shè)計(jì)模型和方法數(shù)據(jù)同步訪問(wèn)和通信控制可靠性設(shè)計(jì)與容錯(cuò)技術(shù)并行計(jì)算軟件框架平臺(tái)系統(tǒng)性能評(píng)價(jià)和程序并行度評(píng)估如何評(píng)估程序的可并行度(Amdahl定律)程序能得到多大并行加速依賴(lài)于該程序有多少可并行計(jì)算的比例。經(jīng)典的程序并行加速評(píng)估公式Amdahl定律:其中,S是加速比,P是程序可并行比例,N是處理器數(shù)目根據(jù)Amdahl定律:一個(gè)并行程序可加速程度是有限制的,并非可無(wú)限加速,并非處理器越多越好并行比例vs加速比50%=>最大2倍75%=>最大4倍90%=>最大10倍95%=>最大20倍4.MPI并行程序設(shè)計(jì)MessagePassingInterface
6、,基于消息傳遞的高性能并行計(jì)算編程接口5.什么是MapReduce概念MapReduce是面向大規(guī)模數(shù)據(jù)并行處理的:(1)基于集群的高性能并行計(jì)算平臺(tái)(ClusterInfrastructure),(硬件層)允許用市場(chǎng)上現(xiàn)成的普通PC或性能較高的刀架或機(jī)架式服務(wù)器,構(gòu)成一個(gè)包含數(shù)千個(gè)節(jié)點(diǎn)的分布式并行計(jì)算集群(2)并行程序開(kāi)發(fā)與運(yùn)行框架(SoftwareFramework)(邏輯層)系統(tǒng)自動(dòng)提供了一個(gè)龐大但設(shè)計(jì)精良的并行計(jì)算軟件構(gòu)架,能自動(dòng)完成計(jì)算任務(wù)的并行化處理,自動(dòng)劃分計(jì)算數(shù)據(jù)和計(jì)算任務(wù),在集群節(jié)點(diǎn)上自動(dòng)分配和執(zhí)行子任務(wù)以及收集計(jì)算結(jié)果,將數(shù)據(jù)分布存儲(chǔ)、數(shù)據(jù)通
7、信、容錯(cuò)處理等并行計(jì)算中的很多復(fù)雜細(xì)節(jié)交由系統(tǒng)負(fù)責(zé)處理,大大減少了軟件開(kāi)發(fā)人員的負(fù)擔(dān)(3)并行程序設(shè)計(jì)模型與方法(ProgrammingModel&Methodology)(用戶層)借助于函數(shù)式Lisp語(yǔ)言中的設(shè)計(jì)思想,提供了一種簡(jiǎn)便的并行程序設(shè)計(jì)方法,用Map和Reduce兩個(gè)函數(shù)編程實(shí)現(xiàn)基本的并行計(jì)算任務(wù),提供了完整的并行編程接口,完成大規(guī)模數(shù)據(jù)處理6.為什么MapReduce如此重要?1)高效的大規(guī)模數(shù)據(jù)處理方法2)第一個(gè)不同于馮諾依曼結(jié)構(gòu)的、基于集群而非單機(jī)的計(jì)算方式的重大突破3)目前為止最為成功的基于大規(guī)模計(jì)算資源的并行計(jì)算抽象方法CH.2.MapRe
8、duce簡(jiǎn)介1.MapR