資源描述:
《基于Hadoop建立云計(jì)算系統(tǒng)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第28卷第3期貴州大學(xué)學(xué)報(bào)(自然科學(xué)版)Vol.28No.32011年6月JournalofGuizhouUniversity(NaturalSciences)Jun.2011文章編號(hào)1000-5269(2011)03-0091-03基于Hadoop建立云計(jì)算系統(tǒng)*1,2*1陳俊,陳孝威(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與信息學(xué)院,貴州貴陽550025;2.貴州師范大學(xué)教育科學(xué)學(xué)院,貴州貴陽550001)摘要:云計(jì)算是2007年底正式提出的一個(gè)新概念,本文分析了云計(jì)算的特征和Hadoop的作用地位.針對Hadoop這樣一個(gè)在
2、集群上運(yùn)行大型數(shù)據(jù)庫處理應(yīng)用程序的開放式源代碼框架進(jìn)行了云計(jì)算平臺(tái)的實(shí)現(xiàn),并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。關(guān)鍵詞:Hadoop;云計(jì)算;MapReduce;HDFS中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A云計(jì)算于2006年由Google提出的,展現(xiàn)規(guī)劃群節(jié)點(diǎn)上執(zhí)行。了一個(gè)美麗的網(wǎng)絡(luò)應(yīng)用模式。隨后亞馬遜、微軟、Hadoop的優(yōu)點(diǎn)在于:惠普、雅虎、英特爾、IBM等公司都宣布了自己的1)可擴(kuò)展:不論是存儲(chǔ)可擴(kuò)展還是計(jì)算可擴(kuò)“云計(jì)劃”。云計(jì)算一詞用來同時(shí)描述一個(gè)系統(tǒng)平展都是Hadoop的設(shè)計(jì)根本,Hadoop的擴(kuò)展非常簡臺(tái)或者一種類型的應(yīng)用
3、程序。一個(gè)云計(jì)算的平臺(tái)單,不需要修改任何已有的結(jié)構(gòu)。按需進(jìn)行動(dòng)態(tài)地部署、配置、重新配置以及取消服2)經(jīng)濟(jì):其框架可運(yùn)行在任何廉價(jià)PC上,對務(wù)等。建立在云計(jì)算平臺(tái)上的服務(wù)器可以是物理硬件沒有特殊的要求。服務(wù)器或虛擬服務(wù)器。云計(jì)算平臺(tái)利用虛擬機(jī)作3)可靠:分布式文件系統(tǒng)的備份恢復(fù)機(jī)制及為服務(wù)器可進(jìn)行在線遷移實(shí)現(xiàn)虛擬機(jī)和物理資源MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠的重映射,從而動(dòng)態(tài)地實(shí)現(xiàn)整個(gè)系統(tǒng)的負(fù)載均衡避性,Hadoop默認(rèn)提供1個(gè)以上備份。免產(chǎn)生資源熱點(diǎn)。在云計(jì)算模型的基本結(jié)構(gòu)當(dāng)中,核心部分是由多臺(tái)計(jì)算
4、機(jī)組成的服務(wù)器“云”。它4)高效:分布式文件系統(tǒng)高效數(shù)據(jù)交互實(shí)現(xiàn)將資源聚集起來,從而形成一個(gè)大的數(shù)據(jù)存儲(chǔ)和處及MapReduce結(jié)合LocalData處理的模式,為高效理中心。由服務(wù)器中的各種配置工具來支持“云”處理海量信息打下基礎(chǔ)。端的軟件管理、數(shù)據(jù)收集和處理。服務(wù)器根據(jù)用戶Hadoop由三個(gè)相對獨(dú)立,而又相輔相成的軟客戶端提交的數(shù)據(jù)請求處理數(shù)據(jù)、返回檢索結(jié)果。件構(gòu)造:按照服務(wù)的分類,來實(shí)現(xiàn)監(jiān)控和測量,保證服務(wù)的(1)HadoopCore,是Hadoop的核心,提供了質(zhì)量,合理地分配資源,達(dá)到資源效益的最大化。一
5、個(gè)分布式文件系統(tǒng)(HDFS),并支持MapReduce最終,實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和超級計(jì)算能力。分布式計(jì)算框架。Hadoop是一個(gè)在集群上運(yùn)行大型數(shù)據(jù)庫處理(2)Hbase,構(gòu)造在HadoopCore之上,提供一應(yīng)用程序的開放式源代碼框架。它支持通過個(gè)可擴(kuò)展、分布式的數(shù)據(jù)庫系統(tǒng)。Google的MapReduce編程范例來創(chuàng)建并執(zhí)行的應(yīng)(3)ZooKeeper,是一個(gè)高可用、高可靠協(xié)同工用程序,在很多大型網(wǎng)站上都已經(jīng)得到了應(yīng)用,可作系統(tǒng),分布式程序可以用ZooKeeper保存且更新以說是目前應(yīng)用最為廣泛的開源云計(jì)算軟件
6、平臺(tái)。關(guān)鍵共享狀態(tài)。1Hadoop框架Hadoop框架用于實(shí)現(xiàn)MapReduce算法,能把2安裝HadoopTM應(yīng)用程序分割成許多很小的工作單元,可在任何集Hadoop的安裝與運(yùn)行需要首先安裝Java1.*收稿日期:2011-03-20基金項(xiàng)目:貴州大學(xué)博士生創(chuàng)新基金(省研理工2010006)作者簡介:陳俊(1979-),男,貴州貴陽人,博士研究生,貴州師范大學(xué)講師,研究方向:網(wǎng)絡(luò)技術(shù),Email:starcraft-cj@163.com.*通訊作者:陳俊,Email:starcraft-cj@163.com.·9
7、2·貴州大學(xué)學(xué)報(bào)(自然科學(xué)版)第28卷5.x或以上版本。其次ssh亦需要安裝,且每次系護(hù)進(jìn)程。因此ssh的設(shè)置是Hadoop部署中很重要統(tǒng)啟動(dòng)時(shí)sshd服務(wù)必須設(shè)置為自動(dòng)啟動(dòng)。Ubuntu的一環(huán)。為了不需要用戶每次在節(jié)點(diǎn)之間執(zhí)行指用戶可用下面命令自動(dòng)下載并安裝:令時(shí)輸入密碼,因此我們配置了ssh讓之采用無密$sudoapt-getinstallssh碼公鑰認(rèn)證的方式來登錄并保證所有的機(jī)器都安$sudoapt-getinstallrsync裝了ssh服務(wù)器,且已啟動(dòng)sshd服務(wù)。其他Linux版本的用戶可以下載ope
8、nssh并按完成ssh服務(wù)配置之后,需要修改Hadoop相其說明步驟安裝。關(guān)配置文件,具體步驟如下:注意如果希望運(yùn)行在Windows平臺(tái)上,則必須(1)打開node1節(jié)點(diǎn)的/home/mapred/hadoop-安裝Cygwin,之后再安裝openssh包。install/hadoop-config/hadoop_env.sh,修改其中JA-由于Hadoop