資源描述:
《大數(shù)據(jù)的分析與應(yīng)用案例》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、大數(shù)據(jù)的分析與應(yīng)用案例主講人:王妍2015/10/211主要內(nèi)容大數(shù)據(jù)的產(chǎn)生及概念大數(shù)據(jù)的國內(nèi)外發(fā)展情況大數(shù)據(jù)的相關(guān)技術(shù)大數(shù)據(jù)的處理平臺(tái)Hadoop2?大數(shù)據(jù)的產(chǎn)生及概念1大數(shù)據(jù)的誕生半個(gè)世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出“大數(shù)據(jù)”這個(gè)概念。信息爆大數(shù)據(jù)炸3“只要你的電腦連接著網(wǎng)絡(luò),你每敲擊一下鍵盤都會(huì)成為互聯(lián)網(wǎng)數(shù)據(jù)的一部分?!?---廣告詞互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影
2、像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂的產(chǎn)生著數(shù)據(jù)。4網(wǎng)絡(luò)1分鐘,人間1萬年52大數(shù)據(jù)有多大?根據(jù)國際數(shù)據(jù)公司(IDC)的測算,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每2年翻一翻。63什么是大數(shù)據(jù)?大數(shù)據(jù)(Bigdata或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的形式的信息?!癇igData”這個(gè)詞最早由IBM提出2010年成為專業(yè)用語登上維基百科2012年紐約時(shí)報(bào)宣告大數(shù)據(jù)時(shí)代的來臨2012年Gartner公司的分析師DougLaney給予大數(shù)據(jù)
3、一個(gè)全新的定義:「大數(shù)據(jù)是大量、高速、及/或類型多變的信息資產(chǎn),它需要全新的處理方式,去促成更強(qiáng)的決策能力、洞察力與優(yōu)化處理。74大數(shù)據(jù)的特征數(shù)據(jù)傳送速數(shù)據(jù)量不斷度連續(xù)而快的增大速且大數(shù)據(jù)的來源種類多樣化8大數(shù)據(jù)的真實(shí)性大快雜疑9大數(shù)據(jù)不僅僅是大10?大數(shù)據(jù)的國內(nèi)外發(fā)展1國外萬馬奔騰,搶占大數(shù)據(jù)11IBM對大數(shù)據(jù)的角逐“大數(shù)據(jù)和分析領(lǐng)域?qū)⑹荌BM未來的利潤引擎?!?---IBM的高官IBM早已在大數(shù)據(jù)和分析領(lǐng)域投入巨資。據(jù)不完全統(tǒng)計(jì),自從2005年起,IBM花費(fèi)超過160億美元收購了35家與大數(shù)據(jù)和分析相關(guān)的公司。為IBM帶來了提取取、轉(zhuǎn)換和加載(ETL)的數(shù)據(jù)2005年收購了Asce
4、ntial集成工具DataStage及其他資產(chǎn)讓IBM擁有了一款端到端商業(yè)智能套件,包括2007年收購了Cognos、Applix傳統(tǒng)的和內(nèi)存2009年吞并了SPSSIBM增強(qiáng)了在商業(yè)智能分析、數(shù)據(jù)呈現(xiàn)、社交媒體分析等能力2011年收購了Algorithmics只為更多地引入大數(shù)據(jù)。其中5筆涉及數(shù)據(jù)分析業(yè)務(wù),2筆涉及云計(jì)算2012年IBM完成了11筆收購業(yè)務(wù)12其財(cái)報(bào)顯示:在過去十年中,IBM的軟件業(yè)務(wù)收入翻了一番,利潤翻了三倍,IBM僅在2012年就超過110億美元的利潤。其中,業(yè)務(wù)分析收入在2012年增長了13%,2015年底預(yù)計(jì)將達(dá)到16億美元。IBM大數(shù)據(jù)解決方案已經(jīng)幫助許多客
5、戶獲得了可觀的投資回報(bào)。電信業(yè):通過分析數(shù)據(jù)將處理時(shí)間減少了92%醫(yī)療衛(wèi)生業(yè):通過分析流動(dòng)的患者數(shù)據(jù)將死亡率降低了20%公用事業(yè):通過分析2.8PB未利用的數(shù)據(jù)將準(zhǔn)確性提高了99%13國外已經(jīng)大規(guī)模投資應(yīng)用142國內(nèi)發(fā)展15阿里大數(shù)據(jù)戰(zhàn)略馬云則將阿里巴巴的未來定位為“平臺(tái)、金融和數(shù)據(jù)”三大核心業(yè)務(wù)。在大數(shù)據(jù)領(lǐng)域,阿里具備獨(dú)特的優(yōu)勢,用戶從搜索到瀏覽、支付,形成深度的交易鏈條,其中每一個(gè)節(jié)點(diǎn)都將產(chǎn)生大量數(shù)據(jù)。數(shù)據(jù)魔方聚石塔數(shù)據(jù)產(chǎn)品大淘寶時(shí)光機(jī)數(shù)據(jù)阿里金融戰(zhàn)收購CNZZ網(wǎng)絡(luò)技術(shù)服務(wù)略公司數(shù)據(jù)平臺(tái)重啟“阿里媽媽”品牌名購入新浪微博18%股份16?大數(shù)據(jù)的相關(guān)技術(shù)及應(yīng)用1大數(shù)據(jù)的分析直觀呈現(xiàn)可
6、視化分析簡單說明分挖掘價(jià)值數(shù)據(jù)挖掘分析析快速處理的挖掘特點(diǎn)五預(yù)測性能分析預(yù)測未來個(gè)方判斷需求語義引擎分析用戶體驗(yàn)面保證真實(shí)數(shù)據(jù)質(zhì)量和管理分析有價(jià)值172大數(shù)據(jù)的技術(shù)?數(shù)據(jù)采集:ETL(Extraction,Transformation,Loading)即數(shù)據(jù)的抽取、轉(zhuǎn)換與裝載。ETL作為BI/DW的核心和靈魂,能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實(shí)施數(shù)據(jù)倉庫的重要步驟。互聯(lián)網(wǎng)企業(yè)的海量數(shù)據(jù)采集工具,有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的Timetunnel、Hadoop的Chukwa等,均
7、可以滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求,并將這些數(shù)據(jù)上載到Hadoop中央系統(tǒng)上。18?數(shù)據(jù)存取:數(shù)據(jù)庫市場成形于上個(gè)世紀(jì)80年代。近年來隨著大數(shù)據(jù)應(yīng)用的興起,面對爆發(fā)式增長的海量數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫已難以應(yīng)對。OldSQL數(shù)據(jù)NoSQL庫NewSQL19?基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。云存儲(chǔ)是一種新興的網(wǎng)絡(luò)存儲(chǔ)技術(shù),是指通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對