H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書

H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書

ID:39454360

大?。?.84 MB

頁數(shù):15頁

時(shí)間:2019-07-03

H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書_第1頁
H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書_第2頁
H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書_第3頁
H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書_第4頁
H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書_第5頁
資源描述:

《H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、H3CFlexDataMPPCluster技術(shù)白皮書H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書杭州華三通信技術(shù)有限公司2021年7月杭州華三通信技術(shù)有限公司IIH3CFlexDataMPPCluster技術(shù)白皮書目錄1H3C大數(shù)據(jù)產(chǎn)品介紹11.1產(chǎn)品簡介11.2產(chǎn)品架構(gòu)11.2.1數(shù)據(jù)處理21.2.2數(shù)據(jù)分層31.3產(chǎn)品技術(shù)特點(diǎn)4先進(jìn)的混合計(jì)算架構(gòu)4高性價(jià)比的分布式集群4云化ETL4數(shù)據(jù)分層和分級(jí)存儲(chǔ)5數(shù)據(jù)分析挖掘5數(shù)據(jù)服務(wù)接口5可視化運(yùn)維管理51.4產(chǎn)品功能簡介6管理平面功能:6業(yè)務(wù)平面功能:62DataEn

2、gineHDP核心技術(shù)83DataEngineMPPCluster核心技術(shù)83.1MPP+SharedNothing架構(gòu)83.2核心組件93.3高可用103.4高性能擴(kuò)展能力103.5高性能數(shù)據(jù)加載113.6OLAP函數(shù)123.7行列混合存儲(chǔ)12杭州華三通信技術(shù)有限公司IIH3CFlexDataMPPCluster技術(shù)白皮書1H3C大數(shù)據(jù)產(chǎn)品介紹1.1產(chǎn)品簡介H3C大數(shù)據(jù)平臺(tái)采用開源社區(qū)ApacheHadoop2.0和MPP分布式數(shù)據(jù)庫混合計(jì)算框架為用戶提供一套完整的大數(shù)據(jù)平臺(tái)解決方案,具備高性

3、能、高可用、高擴(kuò)展特性,可以為超大規(guī)模數(shù)據(jù)管理提供高性價(jià)比的通用計(jì)算存儲(chǔ)能力。H3C大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)采集轉(zhuǎn)換、計(jì)算存儲(chǔ)、分析挖掘、共享交換以及可視化等全系列功能,并廣泛地用于支撐各類數(shù)據(jù)倉庫系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)幫助用戶構(gòu)建海量數(shù)據(jù)處理系統(tǒng),發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在價(jià)值。1.2產(chǎn)品架構(gòu)H3C大數(shù)據(jù)平臺(tái)包含4個(gè)部分:杭州華三通信技術(shù)有限公司-8-H3CFlexDataMPPCluster技術(shù)白皮書第一部分是運(yùn)維管理,包括:安裝部署、配置管理、主機(jī)管理、用戶管理、服務(wù)管理、監(jiān)控告警和安全管理等。第二部

4、分是數(shù)據(jù)ETL,即獲取、轉(zhuǎn)換、加載,包括:關(guān)系數(shù)據(jù)庫連接Sqoop、日志采集Flume、ETL工具Kettle。第三部分是數(shù)據(jù)計(jì)算。MPP采用分析型分布式數(shù)據(jù)庫,存儲(chǔ)高價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù);Hadoop存儲(chǔ)非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)和低價(jià)值密度結(jié)構(gòu)化數(shù)據(jù)。計(jì)算結(jié)果都存到數(shù)據(jù)倉庫,數(shù)據(jù)倉庫中的數(shù)據(jù)可直接用于分析和展示。數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的且隨時(shí)間不斷變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。第四部分?jǐn)?shù)據(jù)服務(wù),包括:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)檢索、數(shù)據(jù)可視化、即席分析、SQL和AP

5、I,為應(yīng)用層提供服務(wù)和中間件調(diào)用。第1章1.11.21.1.1數(shù)據(jù)處理對于大數(shù)據(jù)管理平臺(tái),應(yīng)該建立一套標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)處理流程,例如:如何采集內(nèi)部和外部數(shù)據(jù)、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);如何清洗采集來的臟數(shù)據(jù)和無效數(shù)據(jù);如何對不同來源的數(shù)據(jù)進(jìn)行打通;如何對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化加工;如何在結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上進(jìn)行商業(yè)建模和數(shù)據(jù)挖掘等等。大數(shù)據(jù)管理層在一條數(shù)據(jù)總線上構(gòu)建了一條完整的大數(shù)據(jù)處理流水線。這條流水線從數(shù)據(jù)的采集、清洗到加工處理,把原始雜亂無章的數(shù)據(jù)加工成結(jié)構(gòu)化的數(shù)據(jù)組件,供上層的大數(shù)據(jù)應(yīng)用

6、來拼裝調(diào)用,讓企業(yè)擁有創(chuàng)造數(shù)據(jù)資產(chǎn)的能力。杭州華三通信技術(shù)有限公司-8-H3CFlexDataMPPCluster技術(shù)白皮書1.1.1數(shù)據(jù)分層lODS層:數(shù)據(jù)來源于各生產(chǎn)系統(tǒng),通過ETL工具對接口文件數(shù)據(jù)進(jìn)行編碼替換和數(shù)據(jù)清洗轉(zhuǎn)換,不做關(guān)聯(lián)操作。未來也可用于準(zhǔn)實(shí)時(shí)數(shù)據(jù)查詢。l輕度匯總層:主題域內(nèi)部基于明細(xì)層數(shù)據(jù),進(jìn)行多維度的、用戶級(jí)的匯總l明細(xì)數(shù)據(jù)層:主題域內(nèi)部進(jìn)行拆分、關(guān)聯(lián)。是對ODS操作型數(shù)據(jù)按照主題域劃分規(guī)則進(jìn)行的拆分及合并。l信息子層:報(bào)表數(shù)據(jù)、多維數(shù)據(jù)、指標(biāo)庫等數(shù)據(jù)來源于匯總層。匯總層

7、:主題域之間進(jìn)行關(guān)聯(lián)、匯總計(jì)算。匯總數(shù)據(jù)服務(wù)于信息子層,目的是為了節(jié)約信息子層數(shù)據(jù)計(jì)算成本和計(jì)算時(shí)間。l應(yīng)用層:應(yīng)用系統(tǒng)的私有數(shù)據(jù),應(yīng)用的業(yè)務(wù)數(shù)據(jù)。精細(xì)化營銷做為大數(shù)據(jù)平臺(tái)的一個(gè)上層應(yīng)用,由大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)支撐。杭州華三通信技術(shù)有限公司-8-H3CFlexDataMPPCluster技術(shù)白皮書1.1產(chǎn)品技術(shù)特點(diǎn)第1章1.1先進(jìn)的混合計(jì)算架構(gòu)?采用Hadoop和MPP融合技術(shù)架構(gòu),對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)支持并行計(jì)算和低成本存儲(chǔ),提供低時(shí)延、高并發(fā)的查詢和分析功能;對結(jié)構(gòu)化數(shù)據(jù)采用MPP分布式列

8、存儲(chǔ),支持分布式計(jì)算、智能索引等功能,實(shí)現(xiàn)高性能結(jié)構(gòu)化數(shù)據(jù)分析處理。集成MapReduce、Spark、Storm、Tez等多種計(jì)算框架,利用YARN資源管理做統(tǒng)一管理,可在同一份數(shù)據(jù)集上運(yùn)行多種計(jì)算。離線計(jì)算、內(nèi)存計(jì)算和流式計(jì)算并存,能滿足高吞吐、大數(shù)據(jù)量和低時(shí)延實(shí)時(shí)處理等多方面的數(shù)據(jù)計(jì)算要求。高性價(jià)比的分布式集群?基于x86服務(wù)器本地的計(jì)算與存儲(chǔ)資源,計(jì)算集群可以動(dòng)態(tài)調(diào)整,從數(shù)臺(tái)到數(shù)千臺(tái)之間彈性擴(kuò)展,按需構(gòu)建應(yīng)用,減少總體成本;同時(shí),在設(shè)計(jì)時(shí)充分考慮了硬件設(shè)備的不可靠因素,在軟件層面提供計(jì)算

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。