資源描述:
《1大數(shù)據(jù)概述課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、大數(shù)據(jù)概述教材第1章重點(diǎn)與難點(diǎn)內(nèi)容:大數(shù)據(jù)的概念和應(yīng)用、大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系。重點(diǎn):理解大數(shù)據(jù)的概念、大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系。難點(diǎn):大數(shù)據(jù)對(duì)科學(xué)研究、思維方式和社會(huì)發(fā)展的影響。內(nèi)容提綱1.1大數(shù)據(jù)時(shí)代1.2大數(shù)據(jù)概念1.3大數(shù)據(jù)的影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)關(guān)鍵技術(shù)1.6大數(shù)據(jù)計(jì)算模式1.7大數(shù)據(jù)產(chǎn)業(yè)1.8大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系1.1大數(shù)據(jù)時(shí)代第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點(diǎn),IT領(lǐng)域每隔十五年就會(huì)迎來(lái)一次重大變革表1-1三次信息化浪潮信息化浪潮發(fā)生時(shí)間標(biāo)志
2、解決問(wèn)題代表企業(yè)第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理Intel、AMD、IBM、蘋(píng)果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場(chǎng)標(biāo)桿企業(yè)信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-1存儲(chǔ)價(jià)格隨時(shí)間變化情況1.存儲(chǔ)設(shè)備容量不斷增加信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-3CPU晶體管數(shù)目隨時(shí)間變化情況2.CPU處理能力大幅提升信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-4網(wǎng)絡(luò)帶寬隨時(shí)間
3、變化情況3.網(wǎng)絡(luò)帶寬不斷增加信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-4網(wǎng)絡(luò)帶寬隨時(shí)間變化情況3.網(wǎng)絡(luò)帶寬不斷增加數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來(lái)臨圖1-5數(shù)據(jù)產(chǎn)生方式的變革信息時(shí)代三定律定律名稱內(nèi)容摩爾定律每平方英寸硅芯片上的晶體管數(shù)目每18個(gè)月到24個(gè)月將增加一倍。40年來(lái),這個(gè)預(yù)言每每應(yīng)驗(yàn),而且后人又增加一條:“價(jià)格同時(shí)下降一半”。摩爾定律揭示了信息技術(shù)進(jìn)步的速度,鑄造數(shù)據(jù)滋生的利器!吉爾德定律預(yù)測(cè)互聯(lián)網(wǎng)的帶寬每6個(gè)月增長(zhǎng)1倍,其增長(zhǎng)速度是摩爾定律預(yù)測(cè)的CPU增長(zhǎng)速度的3倍。并預(yù)言將來(lái)上網(wǎng)會(huì)免費(fèi)
4、。吉爾德定律(又稱勝利者浪費(fèi)定律):大帶寬支撐大數(shù)據(jù)麥特卡爾定律預(yù)測(cè)網(wǎng)絡(luò)的價(jià)值與網(wǎng)絡(luò)用戶數(shù)的平方成正比。也就是說(shuō),N個(gè)連結(jié)創(chuàng)造出N×N的效益。上網(wǎng)的人數(shù)越多,產(chǎn)生的效益越多。麥特卡夫定律:大數(shù)據(jù)價(jià)值是用戶創(chuàng)造的大數(shù)據(jù)的發(fā)展歷程階段時(shí)間內(nèi)容第一階段:萌芽期上世紀(jì)90年代至本世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫(kù)技術(shù)的逐步成熟,一批商業(yè)智能工具和知識(shí)管理技術(shù)開(kāi)始被應(yīng)用,如數(shù)據(jù)倉(cāng)庫(kù)、專家系統(tǒng)、知識(shí)管理系統(tǒng)等。第二階段:成熟期本世紀(jì)前十年Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對(duì),帶動(dòng)了大數(shù)
5、據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等發(fā)數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺(tái)開(kāi)始大行其道第三階段:大規(guī)模應(yīng)用期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策,信息社會(huì)智能化程度大幅提高表1-2大數(shù)據(jù)發(fā)展的三個(gè)階段1.2大數(shù)據(jù)概念大數(shù)據(jù)的定義一般意義上,大數(shù)據(jù)是指無(wú)法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。泛指一個(gè)時(shí)代、一項(xiàng)技術(shù)、一種文化、一個(gè)挑戰(zhàn)。(通常也是大數(shù)據(jù)集、大
6、數(shù)據(jù)技術(shù)與大數(shù)據(jù)應(yīng)用的總稱)大數(shù)據(jù)的特點(diǎn):1、數(shù)據(jù)量大(Volume)根據(jù)IDC作出的估測(cè),數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō)每?jī)赡昃驮鲩L(zhǎng)一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長(zhǎng)近30倍存儲(chǔ)單位換算關(guān)系含義與實(shí)例bit二進(jìn)制位Byte1B=8bitKB(Kilobyte,千字節(jié))1KB=1024B=210BMB(Megabyte,兆字節(jié))1MB=1024KB=220B1張照片約2
7、MBGB(Gigabyte,吉字節(jié))1GB=1024MB=230B1部高清電影大約1GBTB(Trillonbyte,太字節(jié))1TB=1024GB=240BeBay每天產(chǎn)生的數(shù)據(jù)量約為50TBPB(Petabyte,拍字節(jié))1PB=1024TB=250BGoogle每月需要處理的數(shù)據(jù)量約600PBEB(Exabyte,艾字節(jié))1EB=1024PB=260B美國(guó)的醫(yī)療數(shù)據(jù)量約為150EBZB(Zettabyte,澤字節(jié))1ZB=1024EB=270B2013年全球數(shù)據(jù)量預(yù)計(jì)4ZBYB(Yottabyte
8、,堯字節(jié))1YB=1024ZB=280B2029年全球數(shù)據(jù)量預(yù)計(jì)達(dá)1YB2、數(shù)據(jù)類型繁多(Variety)大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)非結(jié)構(gòu)化數(shù)據(jù)類型多樣郵件、視頻、微博位置信息、鏈接信息手機(jī)呼叫、網(wǎng)頁(yè)點(diǎn)擊“長(zhǎng)微博”3、處理速度快(Velocity)從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少1秒定律:這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同4、價(jià)