資源描述:
《基于云計算異構環(huán)境的Hadoop性能分析.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、學術探討·基全巧目基于云計算異構環(huán)境的Hadoop性能分析姚曄常廣炎(遼寧行政學院,遼寧沈陽110161)[摘要]針對當前云服務發(fā)展中遇到的數(shù)據(jù)量急速增加為后臺數(shù)據(jù)中心帶來的數(shù)據(jù)處理問題,本文實施了Hadoop的}生能測試。首先對云計算異構環(huán)境的Hadoop性能進行了描述,其次對Hadoop集群中兩種節(jié)點的性能差別進行了分析,并給出了實驗異構的平臺的設計和實驗結果。[關鍵詞]云計算;異構環(huán)境;Hadoop中圖分類號:TP3文獻標識碼:A文章編號:1008—6609(2016)10.0027.03I引言以往的以物理節(jié)點而設立的數(shù)據(jù)中心正在面臨變革,在上個世紀誕生的被用于大
2、型機的虛擬化技術,正在被逐漸部署到廉價通用硬件構成的基于X86的PC服務器上。和以往的物理機器不同,虛擬機中的中間層操作系統(tǒng)和上層的應用不會直接和底層硬件進行交互,而是需要通過VMM層和hv—pervisor才能和底層的硬件接觸。通過在傳統(tǒng)的數(shù)據(jù)中心中應用虛擬化技術,能夠有效分配計算資源,催化了云計算服務在今天的廣泛應用。本文研究了一個由虛擬機節(jié)點和物理機節(jié)點混合而成的異構云平臺,并且在平臺中實施了Ha.doop的性IIII試,分析了Hadoop在物理機和虛擬機混合環(huán)境下讀寫數(shù)據(jù)的實際性能,探究了在Hadoop集群中兩種節(jié)點的性能差別,并且闡述了接下來需要開展的工作。2
3、虛擬化技術和云平臺虛擬化技術能夠實現(xiàn)虛擬機從當前的節(jié)點上向另一個節(jié)點無縫遷移,同時確保在實際遷移的過程中,相關機器中的程序還可以正常運行。虛擬化技術會在數(shù)據(jù)中心形成一個較大的資源池,這樣相關的用戶則是根據(jù)動態(tài)調整,進行資源的整合。在這個前提下,如果一個數(shù)據(jù)中心接入了互聯(lián)網(wǎng)并且應用虛擬化技術,就能夠為外部用戶提供必要的租賃資源服務項目,也就是公共云服務。早在2006年,國際上著名的在線商務平臺亞馬遜公司就研發(fā)了彈性云計算服務(ElasticCloudcomputing),通過虛擬機來為用戶提供數(shù)據(jù)中心的相關計算資源。用戶根據(jù)時間的長短和需求的不同來租用計算資源,并且支付租
4、金。用戶則是可以利用互聯(lián)網(wǎng)將個人數(shù)據(jù)進行傳輸,將其傳輸?shù)皆破脚_上,這樣將會對最終的結果進行計算。除了公共云,云服務也考慮到了數(shù)據(jù)的可靠性和隱私性,將一些數(shù)據(jù)以及應用有效儲存在企業(yè)的數(shù)據(jù)中心,同時對外界進行有效的服務,對于該服務模式則是為私有云服務。3實驗異構的平臺的設計3.1虛擬平臺的設計實驗平臺主要包括4臺PC,其中包括1臺1U尺寸的DellR410抽屜式服務器,還有3臺是組裝機。服務器配置:3塊300G的SAS硬盤,1顆2.13G主頻的四核IntelXeonE5506CPU,8G內(nèi)存;組裝機配置:4塊容量2T的5900轉SeagateSATA硬盤以及1塊80GB的I
5、nter固態(tài)硬盤,1顆主頻2.8G四核Interi5760CPU,內(nèi)存8GB。4臺機器通過一個24口TP.Link的交換機連接而成,進而組成一個小型的局域網(wǎng)絡。在軟件選擇方面,使用Xen3.0版本的整體虛擬化方案當作虛擬化軟件,使用1臺組裝機來建設虛擬機VM,并且為這臺虛擬機配置500GB硬盤空間、7G內(nèi)存以及4個VCPU,使其具有和物理節(jié)點相同的底層IO資源和計算資源。所有VM運行和物理節(jié)點都是Centos5.52.6.18內(nèi)核的64bits操作系統(tǒng),使用0.20.2版本的Hadoop,塊的副本數(shù)是3,HDFS中文件塊大小是64MB。在Hadoop架構中的Master
6、節(jié)點是Dell服務器。Slaves節(jié)點是虛擬機VM和2臺物理組裝機?。作者簡介:姚曄(1973一),女,上海人,碩士,教授,研究方向為云計算。基金項目:2014年遼寧省社科立項課題《云計算在中小圖書館建設中的應用研究》,課題編號:L14BTQ005。.27.學術探討·基金砑目3.2具體實驗設計虛擬化將會導致IO的開銷較大,這樣就必須要對Ha.doop集群中虛擬機節(jié)點和物理機節(jié)點等磁盤讀寫性能進行有效的測試,從而對其性能進行有效的對照。另外,對于dd命令來說,在每次進行設計的過程中,寫入設計的容量為32M。而后連續(xù)寫入100次,達到3.2G的總寫入數(shù)據(jù)量。在這個過程中,同
7、時也要有效保證dd命令的附加參數(shù)cony等于fdatasync,這樣將會讓最終的數(shù)據(jù)無法寫入到內(nèi)存緩存就返回,而是被寫入到磁盤中。所有節(jié)點都需要連續(xù)進行6次速度測試。為了有效保證磁盤讀寫性能的真實性,必須要運用hd.parmt命令(dd命令測試得到的并不是實際的磁盤讀速度)。同時也要對每個階段進行多次的測試工作,以此來保證測試結果的穩(wěn)定性?,F(xiàn)今在Hadoop平臺中,有效運用TestDFSIO和sort這兩個典型的benchmark進行平臺性能測試。關于TestDFSIObenchmark,是利用MapReduce中單個作業(yè)的方式來進行HD