大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程.pdf

大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程.pdf

ID:56000781

大?。?88.03 KB

頁數(shù):6頁

時(shí)間:2020-06-19

大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程.pdf_第1頁
大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程.pdf_第2頁
大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程.pdf_第3頁
大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程.pdf_第4頁
大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程.pdf_第5頁
資源描述:

《大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程大數(shù)據(jù)(bigdata)是這樣的數(shù)據(jù)集合:數(shù)據(jù)量增長(zhǎng)速度極快,用常規(guī)的數(shù)據(jù)工具無法在一定的時(shí)間內(nèi)進(jìn)行采集、處理、存儲(chǔ)和計(jì)算的數(shù)據(jù)集合。大數(shù)據(jù)具有以下五大特征(4V+1O)的數(shù)據(jù)才稱之為大數(shù)據(jù),即:數(shù)據(jù)量大(Volume)。第一個(gè)特征是數(shù)據(jù)量大,包括采集、存儲(chǔ)和計(jì)算的量都非常大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬個(gè)T)或Z(10億個(gè)T)。類型繁多(Variety)。第二個(gè)特征是種類和來源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地

2、理位置信息等等,多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。價(jià)值密度低(Value)。第三個(gè)特征是數(shù)據(jù)價(jià)值密度相對(duì)較低,或者說是浪里淘沙卻又彌足珍貴。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低,如何結(jié)合業(yè)務(wù)邏輯并通過強(qiáng)大的機(jī)器算法來挖掘數(shù)據(jù)價(jià)值,是大數(shù)據(jù)時(shí)代最需要解決的問題。速度快時(shí)效高(Velocity)。第四個(gè)特征數(shù)據(jù)增長(zhǎng)速度快,處理速度也快,時(shí)效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個(gè)性化推薦算法盡可能要求實(shí)時(shí)完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。數(shù)據(jù)是在線

3、的(Online)。數(shù)據(jù)是永遠(yuǎn)在線的,是隨時(shí)能調(diào)用和計(jì)算的,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)最大的特征。現(xiàn)在我們所談到的大數(shù)據(jù)不僅僅是大,更重要的是數(shù)據(jù)變的在線了,這是互聯(lián)網(wǎng)高速發(fā)展背景下的特點(diǎn)。比如,對(duì)于打車工具,客戶的數(shù)據(jù)和出租司機(jī)數(shù)據(jù)都是實(shí)時(shí)在線的,這樣的數(shù)據(jù)才有意義。如果是放在磁盤中而且是離線的,這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)不如在線的商業(yè)價(jià)值大。關(guān)于大數(shù)據(jù)特征方面,特別要強(qiáng)調(diào)的一點(diǎn)是數(shù)據(jù)是在線的,因?yàn)楹芏嗳苏J(rèn)為數(shù)據(jù)量大就是大數(shù)據(jù),往往忽略了大數(shù)據(jù)的在線特性。數(shù)據(jù)只有在線,即數(shù)據(jù)在與產(chǎn)品用戶或者客戶產(chǎn)生連接的時(shí)候才有意義。如某用戶在使用某互聯(lián)網(wǎng)應(yīng)

4、用時(shí),其行為及時(shí)的傳給數(shù)據(jù)使用方,數(shù)據(jù)使用方通過某種有效加工后(通過數(shù)據(jù)分析或者數(shù)據(jù)挖掘進(jìn)行加工),進(jìn)行該應(yīng)用的推送內(nèi)容的優(yōu)化,把用戶最想看到的內(nèi)容推送給用戶,也提升了用戶的使用體驗(yàn)。大數(shù)據(jù)發(fā)展過程的重大事件2005年Hadoop項(xiàng)目誕生。Hadoop其最初只是雅虎公司用來解決網(wǎng)頁搜索問題的一個(gè)項(xiàng)目,后來因其技術(shù)的高效性,被ApacheSoftwareFoundation公司引入并成為開源應(yīng)用。Hadoop本身不是一個(gè)產(chǎn)品,而是由多個(gè)軟件產(chǎn)品組成的一個(gè)生態(tài)系統(tǒng),這些軟件產(chǎn)品共同實(shí)現(xiàn)全面功能和靈活的大數(shù)據(jù)分析。從技術(shù)上看,Hado

5、op由兩項(xiàng)關(guān)鍵服務(wù)構(gòu)成:采用Hadoop分布式文件系統(tǒng)(HDFS)的可靠數(shù)據(jù)存儲(chǔ)服務(wù),以及利用一種叫做MapReduce技術(shù)的高性能并行數(shù)據(jù)處理服務(wù)。這兩項(xiàng)服務(wù)的共同目標(biāo)是,提供一個(gè)使對(duì)結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實(shí)的基礎(chǔ)。2008年末,“大數(shù)據(jù)”得到部分美國知名計(jì)算機(jī)科學(xué)研究人員的認(rèn)可,業(yè)界組織計(jì)算社區(qū)聯(lián)盟(ComputingCommunityConsortium),發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計(jì)算:在商務(wù)、科學(xué)和社會(huì)領(lǐng)域創(chuàng)建革命性突破》。它使人們的思維不僅局限于數(shù)據(jù)處理的機(jī)器,并提出:大數(shù)據(jù)真正重要的是新用途

6、和新見解,而非數(shù)據(jù)本身。此組織可以說是最早提出大數(shù)據(jù)概念的機(jī)構(gòu)。2009年印度政府建立了用于身份識(shí)別管理的生物識(shí)別數(shù)據(jù)庫,聯(lián)合國全球脈沖項(xiàng)目已研究了對(duì)如何利用手機(jī)和社交網(wǎng)站的數(shù)據(jù)源來分析預(yù)測(cè)從螺旋價(jià)格到疾病爆發(fā)之類的問題。2009年中,美國政府通過啟動(dòng)Data.gov網(wǎng)站的方式進(jìn)一步開放了數(shù)據(jù)的大門,這個(gè)網(wǎng)站向公眾提供各種各樣的政府?dāng)?shù)據(jù)。該網(wǎng)站的超過4.45萬量數(shù)據(jù)集被用于保證一些網(wǎng)站和智能手機(jī)應(yīng)用程序來跟蹤從航班到產(chǎn)品召回再到特定區(qū)域內(nèi)失業(yè)率的信息,這一行動(dòng)激發(fā)了從肯尼亞到英國范圍內(nèi)的政府們相繼推出類似舉措。2009年,歐洲一

7、些領(lǐng)先的研究型圖書館和科技信息研究機(jī)構(gòu)建立了伙伴關(guān)系致力于改善在互聯(lián)網(wǎng)上獲取科學(xué)數(shù)據(jù)的簡(jiǎn)易性。2010年2月,肯尼斯庫克爾在《經(jīng)濟(jì)學(xué)人》上發(fā)表了長(zhǎng)達(dá)14頁的大數(shù)據(jù)專題報(bào)告《數(shù)據(jù),無所不在的數(shù)據(jù)》。庫克爾在報(bào)告中提到:“世界上有著無法想象的巨量數(shù)字信息,并以極快的速度增長(zhǎng)。從經(jīng)濟(jì)界到科學(xué)界,從政府部門到藝術(shù)領(lǐng)域,很多方面都已經(jīng)感受到了這種巨量信息的影響。科學(xué)家和計(jì)算機(jī)工程師已經(jīng)為這個(gè)現(xiàn)象創(chuàng)造了一個(gè)新詞匯:“大數(shù)據(jù)”。庫克爾也因此成為最早洞見大數(shù)據(jù)時(shí)代趨勢(shì)的數(shù)據(jù)科學(xué)家之一。2011年2月,IBM的沃森超級(jí)計(jì)算機(jī)每秒可掃描并分析4TB

8、(約2億頁文字量)的數(shù)據(jù)量,并在美國著名智力競(jìng)賽電視節(jié)目《危險(xiǎn)邊緣》“Jeopardy”上擊敗兩名人類選手而奪冠。后來紐約時(shí)報(bào)認(rèn)為這一刻為一個(gè)“大數(shù)據(jù)計(jì)算的勝利?!?011年5月,全球知名咨詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。