資源描述:
《Hadoop只會(huì)錦上添花 不會(huì)喧賓奪主.docx》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、Hadoop似乎火了。150家各種規(guī)模的企業(yè)都在使用Hadoop,包括大公司摩根大通、谷歌和雅虎等,相信這個(gè)開源大數(shù)據(jù)管理系統(tǒng)很快將出現(xiàn)在你的公司里。但是在使用Hadoop前,你最好先全面了解Hadoop的相關(guān)信息??蛻艉蜆I(yè)內(nèi)分析師表示,需要經(jīng)過專門的培訓(xùn)和具備一定的分析能力才能使用Hadoop。然而,并非所有公司都符合這個(gè)條件。這仍然是一個(gè)非常年輕的市場,很多Hadoop供應(yīng)商都爭相推出各種應(yīng)用產(chǎn)品,包括云端產(chǎn)品。最重要的一點(diǎn):不要聽信炒作。Forrester分析師JamesKobielus指出,只有1%的美國企業(yè)在生產(chǎn)環(huán)境中使用Hadoop。他預(yù)計(jì),“在
2、未來一年中,這個(gè)數(shù)字將翻一番或者兩番?!钡菍τ谒袠O富潛力的技術(shù),我們都應(yīng)該謹(jǐn)慎。可以肯定的是,相比于傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng),Hadoop具有更多優(yōu)勢,特別是處理結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù))和非結(jié)構(gòu)化數(shù)據(jù)(如視頻)的能力。而且Hadoop可以在保持對系統(tǒng)最小干擾度的情況下進(jìn)行擴(kuò)展。eBay公司體驗(yàn)、搜索和平臺副總裁HughWilliams表示,eBay面對著9PB來自Terabyte集群上的結(jié)構(gòu)化數(shù)據(jù)以及在“成千上萬”節(jié)點(diǎn)上運(yùn)行的Hadoop集群上的非結(jié)構(gòu)化數(shù)據(jù)。他表示:“Hadoop真的幫了我們大忙。”“你可以在相同硬件上運(yùn)行很多不同類型的不同工作。而
3、在Hadoop出現(xiàn)之前的世界就顯得非常呆板,”Williams說,“你可以采用與之前不同的方式來充分使用集群。它允許你大膽創(chuàng)新,并且門檻很低,非常強(qiáng)大?!睌U(kuò)展,再擴(kuò)展Hadoop早期使用者銷售視頻流系統(tǒng)的Concurrent公司同樣需要為其客戶存儲(chǔ)和分析大量視頻數(shù)據(jù),為了更好地處理有增無減的數(shù)據(jù)量,Concurrent公司兩年前開始使用Cloudera公司的HadoopCDH。Concurrent公司工程總監(jiān)WilliamLazzaro“Hadoop是我們用來解決大數(shù)據(jù)問題的‘鐵榔頭’,”Concurrent公司工程總監(jiān)WilliamLazzaro表示,“它
4、讓我們在很短時(shí)間內(nèi)能夠處理大量數(shù)據(jù)?!盋oncurrent公司的一個(gè)部門負(fù)責(zé)收集和存儲(chǔ)關(guān)于視頻的客戶統(tǒng)計(jì)數(shù)據(jù),這也是Hadoop發(fā)揮作用的地方,Lazzaro表示:“我們現(xiàn)在有一個(gè)客戶一個(gè)月要生成和保存30億數(shù)據(jù)記錄,我們預(yù)計(jì)在接下來的三個(gè)月,這個(gè)數(shù)字將達(dá)到一個(gè)月100億數(shù)據(jù)記錄?!边^去,Concurrent公司面對的兩個(gè)主要局限是:傳統(tǒng)關(guān)系型數(shù)據(jù)庫無法處理非結(jié)構(gòu)化數(shù)據(jù)(如視頻),并且需要處理和存儲(chǔ)的數(shù)據(jù)量成倍增長。“我的客戶想要保存數(shù)據(jù)四到五年,”Lazzaro說道,“當(dāng)他們每天產(chǎn)生1PB數(shù)據(jù)時(shí),這將是一個(gè)大數(shù)據(jù)問題?!庇辛薍adoop,Concurren
5、t公司工程師發(fā)現(xiàn)他們能夠滿足其客戶日益增長的需求,Lazzaro表示,“在測試過程中,他們嘗試為該客戶每天處理20億條記錄,通過向節(jié)點(diǎn)加入另一臺服務(wù)器后,我們發(fā)現(xiàn)完全能夠滿足他們的需求,并且能夠迅速擴(kuò)展?!睘榱藢Ρ?,該公司使用傳統(tǒng)數(shù)據(jù)庫進(jìn)行了相同的測試,發(fā)現(xiàn)Hadoop的主要優(yōu)勢之一在于它可以方便快捷地根據(jù)需要增加額外的硬件,而不需要額外的授權(quán)費(fèi)用,因?yàn)樗情_源產(chǎn)品。生命科學(xué)和基因組公司NextBio公司是另一個(gè)Hadoop用戶,該公司主要負(fù)責(zé)涉及龐大的關(guān)于人類基因測序數(shù)據(jù)集的項(xiàng)目以及相關(guān)科研工作。NextBio公司工程副總裁SatnamAlag“我們引入各
6、種基因組數(shù)據(jù),然后使用Hadoop對數(shù)據(jù)進(jìn)行處理,并與其他數(shù)據(jù)集進(jìn)行比較,”NextBio公司工程副總裁SatnamAlag表示,“Hadoop讓我們可以根據(jù)客戶需要對大量公共數(shù)據(jù)進(jìn)行分析,我們的客戶范圍包括制藥公司到學(xué)術(shù)研究人員。”NextBio使用的是來自MapR的Hadoop產(chǎn)品。一個(gè)典型的完整基因組序列可以包含120GB到150GB壓縮數(shù)據(jù),需要0.5TB的存儲(chǔ)容量以進(jìn)行處理。在過去,該公司需要花費(fèi)三天來分析這些數(shù)據(jù),但現(xiàn)在通過30到40臺運(yùn)行Hadoop的機(jī)器,NextBio的工作人員只需要三到四個(gè)小時(shí)就可以完成工作。Alag表示:“對于任何需要利
7、用這些數(shù)據(jù)的應(yīng)用程序,Hadoop都帶來了很大的變化?!盚adoop的另一大優(yōu)勢是它可以簡單地通過增加更多節(jié)點(diǎn)來按需擴(kuò)展系統(tǒng)。他表示:“如果沒有Hadoop,擴(kuò)展將是極具挑戰(zhàn)性和昂貴的工作?!边@種所謂的橫向擴(kuò)展(增加更多商品硬件節(jié)點(diǎn)到Hadoop集群)是非常具有成本效益的系統(tǒng)方式。Hadoop框架“會(huì)自動(dòng)處理集群中失效的節(jié)點(diǎn)”。這極大地改變了該公司擴(kuò)大其計(jì)算能力以滿足其需求的方式。他表示:“我們不想在基礎(chǔ)設(shè)施上花費(fèi)太多錢,我們并沒有那么多資金?!毙骂愋蛻?yīng)用層出不窮Hadoop的一個(gè)巨大優(yōu)勢在于它能夠?qū)Υ罅繑?shù)據(jù)集進(jìn)行分析并迅速發(fā)現(xiàn)趨勢。對于一家大型零售商,這可
8、能意味著分析Facebook或者Twitter用戶數(shù)