hadoop大數(shù)據(jù)平臺部署與應用

ID：20880810

大?。?.17 MB

頁數(shù)：61頁

時間：2018-10-17

資源描述：

《hadoop大數(shù)據(jù)平臺部署與應用》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、Hadoop大數(shù)據(jù)平臺部署與應用主講：呂震宇主要內(nèi)容1、Hadoop生態(tài)系統(tǒng)概述以及版本演化2、Hadoop發(fā)行版介紹（開源版）3、Hadoop安裝4、HDFS上機操作5、HBASE上機操作6、YARN上機操作7、MapReduce上機操作8、SPARK概述1、Hadoop生態(tài)系統(tǒng)概述以及版本演化Hadoop1.0與Hadoop2.0分布式存儲系統(tǒng)HDFS（HadoopDistributedFileSystem）提供了高可靠性、高擴展性和高吞吐率的數(shù)據(jù)存儲服務分布式計算框架MapReduce具有易于編程、高容錯性和高擴展

2、性等優(yōu)點資源管理系統(tǒng)YARN（YetAnotherResourceNegotiator）負責集群資源的統(tǒng)一管理和調(diào)度HADOOP1.0HADOOP2.0HDFS(redundant,reliablestorage)MapReduce(clusterresourcemanagement&dataprocessing)MapReduce(dataprocessing)Others(dataprocessing)YARN(clusterresourcemanagement)HDFS(redundant,reliablestor

3、age)HDFS架構(gòu)DataNodeDataNodeDataNodeDataNodeDataNodeLocalDiskNameNodeSecondaryNameNodeHDFSClientLocalDiskLocalDiskLocalDiskLocalDisk心跳、均衡負載、復制等HDFS架構(gòu)ActiveNamenode主Master（只有一個），管理HDFS的名稱空間，管理數(shù)據(jù)塊映射信息配置副本策略；處理客戶端讀寫請求SecondaryNameNodeNameNode的熱備；定期合并fsimage和fsedits，推送

4、給NameNode；當ActiveNameNode出現(xiàn)故障時，快速切換為新的ActiveNameNode。DatanodeSlave（有多個）；存儲實際的數(shù)據(jù)塊；執(zhí)行數(shù)據(jù)塊讀/寫Client與NameNode交互，獲取文件位置信息；與DataNode交互，讀取或者寫入數(shù)據(jù)；管理HDFS、訪問HDFS。MapReduce源自于Google的MapReduce論文發(fā)表于2004年12月HadoopMapReduce是GoogleMapReduce克隆版MapReduce特點良好的擴展性高容錯性適合PB級以上海量數(shù)據(jù)的離線處理

5、詞頻統(tǒng)計的MapReduce處理過程DeerBearRiverCarCarRiverDeerCarBearDeer，1Bear，1River，1Car，1Car，1River，1Deer，1Car，1Bear，1DeerBearRiverCarCarRiverDeerCarBearBear，1Bear，1Car，1Car，1Car，1Deer，1Deer，1River，1River，1Bear，2Car，3Deer，2River，2Bear，2Car，3Deer，2River，2InputSplittingMapping

6、ReducingShufflingFinalresultHadoop構(gòu)成：YARN（資源管理系統(tǒng)）ApplicationRunNativelyINHadoopBATCH(MapReduce)YARN(ClusterResourceManagement)HDFS2(Redundant,ReliableStorage)InterActive(Tez)ONLINE(HBase)STREAMING(Storm,S4,…)GRAPH(Giraph)IN-MEMORY(Spark)HPCMPI(OpenMPI)OTHER(Searc

7、h…)YARN是什么Hadoop2.0新增系統(tǒng)負責集群的資源管理和調(diào)度使得多種計算框架可以運行在一個集群中YARN的特點良好的擴展性、高可用性對多種類型的應用程序進行統(tǒng)一管理和調(diào)度自帶多種多用戶調(diào)度器，適合共享集群環(huán)境Hadoop生態(tài)系統(tǒng)：1.0時代Flume（日志收集）Zookeeper（分布式協(xié)調(diào)服務）Mahout（數(shù)據(jù)挖掘庫）Hive（數(shù)據(jù)倉庫）Oozie（作業(yè)流調(diào)度系統(tǒng)）MapReduce（分布式計算框架）Ambari（安裝部署工具）HDFS（分布式存儲系統(tǒng)）Pig（工作流引擎）Hbase（分布式數(shù)據(jù)庫）Sqoo

8、p（數(shù)據(jù)庫TEL工具）Hive（基于MR的數(shù)據(jù)倉庫）由Facebook開源，最初用于海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計；ETL（Extraction-Transformation-Loading）工具構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫數(shù)據(jù)計算使用MapReduce，數(shù)據(jù)存儲使用HDFSHive定義了一種類SQL查詢語言——HQL類

當前文檔最多預覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 61



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

hadoop大數(shù)據(jù)平臺部署與應用

hadoop大數(shù)據(jù)平臺部署與應用

相關(guān)文章

相關(guān)標簽