資源描述:
《大數(shù)據(jù)實(shí)時(shí)處理技術(shù)以及其應(yīng)用.pdf》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、大數(shù)據(jù)實(shí)時(shí)處理技術(shù)及其應(yīng)用李松林2013年4月Agenda?大數(shù)據(jù)的現(xiàn)狀?業(yè)務(wù)場景思考?技術(shù)架構(gòu)及其應(yīng)用?Q&A關(guān)于京東關(guān)于京東(續(xù))?京東擁有覆蓋企業(yè)全部價(jià)值鏈的穩(wěn)定系統(tǒng),通過持續(xù)優(yōu)化打造開放平臺,全面提升用戶體驗(yàn)。網(wǎng)站客戶前臺營銷數(shù)據(jù)管理財(cái)務(wù)系統(tǒng)供應(yīng)商管理倉儲配送管理管理大數(shù)據(jù)時(shí)代?3V:速度、容量、類型?數(shù)據(jù)的來源更加豐富–商品、訂單、?–社交?–營銷??數(shù)據(jù)間的關(guān)聯(lián)性更加復(fù)雜–人與人–商品與商品–??數(shù)據(jù)的價(jià)值–時(shí)效性–新商業(yè)模式大規(guī)模數(shù)據(jù)處理更加容易ETL/企業(yè)數(shù)據(jù)倉庫(Hive/Pig/MR)數(shù)據(jù)挖掘/建模(R、Mahout)搜索和推薦日
2、志存儲…一些場景需要進(jìn)一步的考量MapReduce批量處理?“NextClick”=?運(yùn)營智能?風(fēng)險(xiǎn)控制延遲較長?互動分析無法滿足用戶的實(shí)時(shí)需求??調(diào)度開銷較大大數(shù)據(jù)包括三部分批處理與分析近實(shí)時(shí)分析實(shí)時(shí)流處理實(shí)時(shí)性離線準(zhǔn)實(shí)時(shí)/實(shí)時(shí)實(shí)時(shí)處理時(shí)間分鐘到小時(shí)毫秒到秒持續(xù)不斷數(shù)據(jù)量TB-PBGB-TB持續(xù)編程模型MapReduceQueriesDAG用戶分析師/開發(fā)者分析師/開發(fā)者開發(fā)者成本中高高應(yīng)用ETL/數(shù)據(jù)挖掘/數(shù)據(jù)決策分析?預(yù)處理?/?大數(shù)據(jù)實(shí)時(shí)處理的思考模型性能服務(wù)大數(shù)據(jù)實(shí)時(shí)處理的思考(續(xù))?模型–海量數(shù)據(jù)?數(shù)據(jù)量大?并發(fā)數(shù)高–多個數(shù)據(jù)源整合–預(yù)定
3、義好的數(shù)據(jù)模型?去規(guī)格化–數(shù)據(jù)任務(wù)依賴關(guān)系簡單–推和拉的問題?拉比推好大數(shù)據(jù)實(shí)時(shí)處理的思考(續(xù))?性能–高并發(fā)需求–大容量需求?GB–TB級后臺數(shù)據(jù)處理吞吐–高速度需求?從數(shù)據(jù)產(chǎn)生到處理完成結(jié)果延遲要求到秒級?計(jì)算需要在短時(shí)間內(nèi)完成–批處理預(yù)算–硬件支持?內(nèi)存、CPU、網(wǎng)絡(luò)–容錯–水平擴(kuò)展大數(shù)據(jù)實(shí)時(shí)處理的思考(續(xù))?服務(wù)–關(guān)聯(lián)獲取價(jià)值,維度按需定制–互動分析、報(bào)表等完成價(jià)值交付–與其他在線生產(chǎn)系統(tǒng)進(jìn)行數(shù)據(jù)對接(數(shù)據(jù)反哺)–計(jì)算即服務(wù)大數(shù)據(jù)實(shí)時(shí)處理架構(gòu)財(cái)務(wù)數(shù)據(jù)集市數(shù)采銷數(shù)據(jù)集市據(jù)生產(chǎn)數(shù)據(jù)庫ELT企業(yè)數(shù)據(jù)倉庫推送中羅盤數(shù)據(jù)集市離線計(jì)算心ELTETL數(shù)據(jù)分
4、析挖掘高速存取集群緩沖區(qū)數(shù)據(jù)集實(shí)時(shí)數(shù)據(jù)近實(shí)時(shí)分析集群流式計(jì)算集群模型日志系統(tǒng)同步持久化PUSH近實(shí)時(shí)計(jì)算PULL/PUSH企業(yè)消息總線訂閱分布式消息系統(tǒng)高速存取集群緩存集群在線實(shí)時(shí)計(jì)算集群實(shí)時(shí)計(jì)算在線服務(wù)應(yīng)用報(bào)表應(yīng)用分析應(yīng)用推薦應(yīng)用...大數(shù)據(jù)實(shí)時(shí)處理技術(shù)?數(shù)據(jù)傳輸–日志(用戶行為、?)–批量同步–消息隊(duì)列–??開源技術(shù)–Flume–Scribe–Kafka–?Kafka?Apache項(xiàng)目:http://kafka.apache.org/?一個分布式的發(fā)布/訂閱消息系統(tǒng)?術(shù)語–Topics?消息分組–Brokers?消息存儲–Producers?消息
5、生產(chǎn)者–Consumers?消息消費(fèi)者大數(shù)據(jù)實(shí)時(shí)處理技術(shù)?幾個點(diǎn)–解耦–緩沖–容錯–透明–跨數(shù)據(jù)中心數(shù)據(jù)分發(fā)FlumeKafkaAgentAgentZookeeperStorm等SinkBroker(Topic1)Broker(Topic2)HDFS大數(shù)據(jù)實(shí)時(shí)處理技術(shù)?存儲–大容量低速存儲–高速存儲–KV存儲?開源NoSQL數(shù)據(jù)存儲–Hadoop–HBase–Cassandra–MongoDB–Redis–??數(shù)據(jù)庫Sharding?合適的就是最好的大數(shù)據(jù)實(shí)時(shí)處理技術(shù)?計(jì)算–可加計(jì)算、不可加計(jì)算–實(shí)時(shí)數(shù)據(jù)的實(shí)時(shí)計(jì)算–實(shí)時(shí)數(shù)據(jù)的計(jì)算–數(shù)據(jù)的實(shí)時(shí)計(jì)算?開
6、源計(jì)算框架–Storm–Impala–?Impala?Cloudera公司貢獻(xiàn)?一種通用的SQL查詢引擎(Hive語法)?與Hadoop整合在一起SQLAppHiveHDFSNNStatestoreJDBC/ODBCMetastoreSQLrequestQueryPlannerQueryPlannerQueryPlannerQueryCoordinatorQueryCoordinatorQueryCoordinatorQueryExecutorQueryExecutorQueryExecutorHDFSDNHBaseHDFSDNHBaseHDFSDN
7、HBase大數(shù)據(jù)實(shí)時(shí)分析ReportIDEROLAPJDBCJDBCMondrianMondrianMondrian(OLAP)(OLAP)(OLAP)元數(shù)據(jù)JDBCHiveHDFSNNStatestore緩存MetastoreImpalaImpaladImpaladImpaladHDFSDataNodeDataNodeDataNodeM1M2M3大數(shù)據(jù)實(shí)時(shí)分析聚合表1聚合表2聚合表3明細(xì)事實(shí)表流式計(jì)算Storm?Twitter開源的分布式處理框架Spouts?基本概念Bolt–Streams(流)?元組序列–Spouts?流的源頭–Bolts?Fu
8、nctions,Filters,Joins,Aggregations–Topologies?優(yōu)點(diǎn)–可擴(kuò)展、容