資源描述:
《hadoop大數(shù)據(jù)平臺部署與應用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、Hadoop大數(shù)據(jù)平臺部署與應用主講:呂震宇主要內(nèi)容1、Hadoop生態(tài)系統(tǒng)概述以及版本演化2、Hadoop發(fā)行版介紹(開源版)3、Hadoop安裝4、HDFS上機操作5、HBASE上機操作6、YARN上機操作7、MapReduce上機操作8、SPARK概述1、Hadoop生態(tài)系統(tǒng)概述以及版本演化Hadoop1.0與Hadoop2.0分布式存儲系統(tǒng)HDFS(HadoopDistributedFileSystem)提供了高可靠性、高擴展性和高吞吐率的數(shù)據(jù)存儲服務分布式計算框架MapReduce具有易于編程、高容錯性和高擴展
2、性等優(yōu)點資源管理系統(tǒng)YARN(YetAnotherResourceNegotiator)負責集群資源的統(tǒng)一管理和調(diào)度HADOOP1.0HADOOP2.0HDFS(redundant,reliablestorage)MapReduce(clusterresourcemanagement&dataprocessing)MapReduce(dataprocessing)Others(dataprocessing)YARN(clusterresourcemanagement)HDFS(redundant,reliablestor
3、age)HDFS架構(gòu)DataNodeDataNodeDataNodeDataNodeDataNodeLocalDiskNameNodeSecondaryNameNodeHDFSClientLocalDiskLocalDiskLocalDiskLocalDisk心跳、均衡負載、復制等HDFS架構(gòu)ActiveNamenode主Master(只有一個),管理HDFS的名稱空間,管理數(shù)據(jù)塊映射信息配置副本策略;處理客戶端讀寫請求SecondaryNameNodeNameNode的熱備;定期合并fsimage和fsedits,推送
4、給NameNode;當ActiveNameNode出現(xiàn)故障時,快速切換為新的ActiveNameNode。DatanodeSlave(有多個);存儲實際的數(shù)據(jù)塊;執(zhí)行數(shù)據(jù)塊讀/寫Client與NameNode交互,獲取文件位置信息;與DataNode交互,讀取或者寫入數(shù)據(jù);管理HDFS、訪問HDFS。MapReduce源自于Google的MapReduce論文發(fā)表于2004年12月HadoopMapReduce是GoogleMapReduce克隆版MapReduce特點良好的擴展性高容錯性適合PB級以上海量數(shù)據(jù)的離線處理
5、詞頻統(tǒng)計的MapReduce處理過程DeerBearRiverCarCarRiverDeerCarBearDeer,1Bear,1River,1Car,1Car,1River,1Deer,1Car,1Bear,1DeerBearRiverCarCarRiverDeerCarBearBear,1Bear,1Car,1Car,1Car,1Deer,1Deer,1River,1River,1Bear,2Car,3Deer,2River,2Bear,2Car,3Deer,2River,2InputSplittingMapping
6、ReducingShufflingFinalresultHadoop構(gòu)成:YARN(資源管理系統(tǒng))ApplicationRunNativelyINHadoopBATCH(MapReduce)YARN(ClusterResourceManagement)HDFS2(Redundant,ReliableStorage)InterActive(Tez)ONLINE(HBase)STREAMING(Storm,S4,…)GRAPH(Giraph)IN-MEMORY(Spark)HPCMPI(OpenMPI)OTHER(Searc
7、h…)YARN是什么Hadoop2.0新增系統(tǒng)負責集群的資源管理和調(diào)度使得多種計算框架可以運行在一個集群中YARN的特點良好的擴展性、高可用性對多種類型的應用程序進行統(tǒng)一管理和調(diào)度自帶多種多用戶調(diào)度器,適合共享集群環(huán)境Hadoop生態(tài)系統(tǒng):1.0時代Flume(日志收集)Zookeeper(分布式協(xié)調(diào)服務)Mahout(數(shù)據(jù)挖掘庫)Hive(數(shù)據(jù)倉庫)Oozie(作業(yè)流調(diào)度系統(tǒng))MapReduce(分布式計算框架)Ambari(安裝部署工具)HDFS(分布式存儲系統(tǒng))Pig(工作流引擎)Hbase(分布式數(shù)據(jù)庫)Sqoo
8、p(數(shù)據(jù)庫TEL工具)Hive(基于MR的數(shù)據(jù)倉庫)由Facebook開源,最初用于海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計;ETL(Extraction-Transformation-Loading)工具構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫數(shù)據(jù)計算使用MapReduce,數(shù)據(jù)存儲使用HDFSHive定義了一種類SQL查詢語言——HQL類