資源描述:
《大數(shù)據(jù)引領(lǐng)我們走向數(shù)據(jù)智能化時(shí)代課件.ppt》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、大數(shù)據(jù)大數(shù)據(jù)引領(lǐng)我們走向數(shù)據(jù)智能化時(shí)代BigData目錄大數(shù)據(jù)的定義理解相關(guān)技術(shù)與應(yīng)用機(jī)遇與挑戰(zhàn)大數(shù)據(jù)的定義理解一什么是大數(shù)據(jù)Dada大大數(shù)據(jù)的構(gòu)成123大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征大數(shù)據(jù)時(shí)代的背景大數(shù)據(jù)時(shí)代的背景21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車(chē)聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話(huà)、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕
2、生:半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念*。如今,這個(gè)概念幾乎應(yīng)用到了所有人類(lèi)智力與發(fā)展的領(lǐng)域中。20世紀(jì)90年代,數(shù)據(jù)倉(cāng)庫(kù)之父的BillInmon就經(jīng)常提及BigData2011年5月,在“云計(jì)算相遇大數(shù)據(jù)”為主題的EMCWorld2011會(huì)議中,EMC拋出了BigData概念BigData名詞由來(lái)全球每秒鐘發(fā)送2.9百萬(wàn)封電子郵件,一分鐘讀一篇的話(huà),足夠一個(gè)
3、人晝夜不息的讀5.5年…每天會(huì)有2.88萬(wàn)個(gè)小時(shí)的視頻上傳到Y(jié)outube,足夠一個(gè)人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬(wàn)條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個(gè)人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬(wàn)筆訂單…每個(gè)月網(wǎng)民在Facebook上要花費(fèi)7千億分鐘,被移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…新的時(shí)代,人們從信息的被動(dòng)接受者變成了主動(dòng)創(chuàng)造者大數(shù)據(jù)時(shí)代到來(lái)TBPBZBEB大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng)根據(jù)IDC監(jiān)測(cè),人
4、類(lèi)產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng),大約每?jī)赡攴环?,這個(gè)速度在2020年之前會(huì)繼續(xù)保持下去。這意味著人類(lèi)在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時(shí)代正在來(lái)臨..大數(shù)據(jù)時(shí)代到來(lái)大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說(shuō),只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。體量Volume多樣性Variety價(jià)值密度Value速
5、度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來(lái)趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢(xún)、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見(jiàn)影而非事后見(jiàn)效大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類(lèi)型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過(guò)關(guān)系
6、數(shù)據(jù)庫(kù)進(jìn)行管理和訪問(wèn)的靜態(tài)、歷史數(shù)據(jù)。通過(guò)這些數(shù)據(jù),我們能了解過(guò)去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來(lái)源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過(guò)管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來(lái)會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開(kāi)放源碼、在
7、商品硬件群中運(yùn)行的ApacheHadoop。大數(shù)據(jù)要解決的問(wèn)題Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類(lèi)型ValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價(jià)值相關(guān)技術(shù)與應(yīng)用二大數(shù)據(jù)怎么用大數(shù)據(jù)時(shí)代的背景相關(guān)技術(shù)云計(jì)算與大數(shù)據(jù)大數(shù)據(jù)領(lǐng)的應(yīng)用123相關(guān)技術(shù)相關(guān)技術(shù)大數(shù)據(jù)技術(shù)將被設(shè)計(jì)用于在成本可承受(economically)的條件下,通過(guò)非??焖伲╲elocity)的采集、發(fā)現(xiàn)和分析,從大量化(volumes)、多類(lèi)別(variety)的數(shù)據(jù)中提取價(jià)值(value),將是IT領(lǐng)域新一代的技術(shù)與架構(gòu)企業(yè)用以分析的數(shù)據(jù)越全面,
8、分析的結(jié)果就越接近于真實(shí)。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個(gè)細(xì)節(jié)相融合什么是BigData技術(shù)分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘