資源描述:
《大數(shù)據(jù)的定義特征與發(fā)展歷程》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、大數(shù)據(jù)的定義特征與發(fā)展歷程大數(shù)據(jù)的定義與特征大數(shù)據(jù)(bigdata)的數(shù)據(jù)集合:數(shù)據(jù)量增長速度極快,用常規(guī)的數(shù)據(jù)工具無法在一定的時(shí)間內(nèi)進(jìn)行采集、處理、存儲(chǔ)和計(jì)算的數(shù)據(jù)集合。大數(shù)據(jù)要具有以下五大特征(4V+1O)的數(shù)據(jù)才稱之為大數(shù)據(jù),即:數(shù)據(jù)量大(Volume)。第一個(gè)特征是數(shù)據(jù)量大,包括采集、存儲(chǔ)和計(jì)算的量都非常大。類型繁多(Variety)。第二個(gè)特征是種類和來源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。價(jià)值密度低(Value)。第
2、三個(gè)特征是數(shù)據(jù)價(jià)值密度相對較低,或者說是浪里淘沙卻又彌足珍貴。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低,如何結(jié)合業(yè)務(wù)邏輯并通過強(qiáng)大的機(jī)器算法來挖掘數(shù)據(jù)價(jià)值,是大數(shù)據(jù)時(shí)代最需要解決的問題。速度快時(shí)效高(Velocity)。第四個(gè)特征數(shù)據(jù)增長速度快,處理速度也快,時(shí)效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個(gè)性化推薦算法盡可能要求實(shí)時(shí)完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。數(shù)據(jù)是在線的(Online)。數(shù)據(jù)是永遠(yuǎn)在線的,是隨時(shí)能調(diào)用和計(jì)算的,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)最大的特征?,F(xiàn)
3、在我們所談到的大數(shù)據(jù)不僅僅是大,更重要的是數(shù)據(jù)變的在線了,這是互聯(lián)網(wǎng)高速發(fā)展背景下的特點(diǎn)。關(guān)于大數(shù)據(jù)特征方面,特別要強(qiáng)調(diào)的一點(diǎn)是數(shù)據(jù)是在線的,因?yàn)楹芏嗳苏J(rèn)為數(shù)據(jù)量大就是大數(shù)據(jù),往往忽略了大數(shù)據(jù)的在線特性。數(shù)據(jù)只有在線,即數(shù)據(jù)在與產(chǎn)品用戶或者客戶產(chǎn)生連接的時(shí)候才有意義。如某用戶在使用某互聯(lián)網(wǎng)應(yīng)用時(shí),其行為及時(shí)的傳給數(shù)據(jù)使用方,數(shù)據(jù)使用方通過某種有效加工后(通過數(shù)據(jù)分析或者數(shù)據(jù)挖掘進(jìn)行加工),進(jìn)行該應(yīng)用的推送內(nèi)容的優(yōu)化,把用戶最想看到的內(nèi)容推送給用戶,也提升了用戶的使用體驗(yàn)。大數(shù)據(jù)的發(fā)展過程2005年Hadoop項(xiàng)目誕生。Hadoop其最初
4、只是雅虎公司用來解決網(wǎng)頁搜索問題的一個(gè)項(xiàng)目,后來因其技術(shù)的高效性,被ApacheSoftwareFoundation公司引入并成為開源應(yīng)用。Hadoop本身不是一個(gè)產(chǎn)品,而是由多個(gè)軟件產(chǎn)品組成的一個(gè)生態(tài)系統(tǒng),這些軟件產(chǎn)品共同實(shí)現(xiàn)全面功能和靈活的大數(shù)據(jù)分析。2008年末,“大數(shù)據(jù)”得到部分美國知名計(jì)算機(jī)科學(xué)研究人員的認(rèn)可,業(yè)界組織計(jì)算社區(qū)聯(lián)盟(ComputingCommunityConsortium),發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計(jì)算:在商務(wù)、科學(xué)和社會(huì)領(lǐng)域創(chuàng)建革命性突破》。它使人們的思維不僅局限于數(shù)據(jù)處理的機(jī)器,并提出:大數(shù)據(jù)真正
5、重要的是新用途和新見解,而非數(shù)據(jù)本身。此組織可以說是最早提出大數(shù)據(jù)概念的機(jī)構(gòu)。2009年印度政府建立了用于身份識別管理的生物識別數(shù)據(jù)庫,聯(lián)合國全球脈沖項(xiàng)目已研究了對如何利用手機(jī)和社交網(wǎng)站的數(shù)據(jù)源來分析預(yù)測從螺旋價(jià)格到疾病爆發(fā)之類的問題。2009年中,美國政府通過啟動(dòng)Data.gov網(wǎng)站的方式進(jìn)一步開放了數(shù)據(jù)的大門,這個(gè)網(wǎng)站向公眾提供各種各樣的政府?dāng)?shù)據(jù)。2009年,歐洲一些領(lǐng)先的研究型圖書館和科技信息研究機(jī)構(gòu)建立了伙伴關(guān)系致力于改善在互聯(lián)網(wǎng)上獲取科學(xué)數(shù)據(jù)的簡易性。2010年2月,肯尼斯庫克爾在《經(jīng)濟(jì)學(xué)人》上發(fā)表了長達(dá)14頁的大數(shù)據(jù)專題報(bào)告
6、《數(shù)據(jù),無所不在的數(shù)據(jù)》。庫克爾在報(bào)告中提到:“世界上有著無法想象的巨量數(shù)字信息,并以極快的速度增長。科學(xué)家和計(jì)算機(jī)工程師已經(jīng)為這個(gè)現(xiàn)象創(chuàng)造了一個(gè)新詞匯:“大數(shù)據(jù)”。庫克爾也因此成為最早洞見大數(shù)據(jù)時(shí)代趨勢的數(shù)據(jù)科學(xué)家之一。2011年5月,全球知名咨詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)發(fā)布了一份報(bào)告——《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)新領(lǐng)域》,大數(shù)據(jù)開始備受關(guān)注,這也是專業(yè)機(jī)構(gòu)第一次全方面的介紹和展望大數(shù)據(jù)。2011年12月,工信部發(fā)布的物聯(lián)網(wǎng)十二五規(guī)劃上,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一
7、被提出來,其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。2012年1月份,瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,會(huì)上發(fā)布的報(bào)告《大數(shù)據(jù),大影響》(BigData,BigImpact)宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。2012年3月,美國奧巴馬政府在白宮網(wǎng)站發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,這一倡議標(biāo)志著大數(shù)據(jù)已經(jīng)成為重要的時(shí)代特征。2012年3月22日,奧巴馬政府宣布2億美元投資大數(shù)據(jù)領(lǐng)域,是大數(shù)據(jù)技術(shù)從商業(yè)行為上升到國家科技戰(zhàn)略的分水嶺,在次日的電話會(huì)議中,政府對數(shù)
8、據(jù)的定義“未來的新石油”,大數(shù)據(jù)技術(shù)領(lǐng)域的競爭,事關(guān)國家安全和未來。2012年4月,美國軟件公司Splunk于19日在納斯達(dá)克成功上市,成為第一家上市的大數(shù)據(jù)處理公司。2012年7月,為挖掘大數(shù)據(jù)的價(jià)值,阿