資源描述:
《spark搭建手冊》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、Hadoop+Spark大數(shù)據(jù)集群環(huán)境1.配置集群的準(zhǔn)備,文件包如下圖:分布式機(jī)器如下:SparkMaster192.168.35.129Ubuntu12.xSparkWorker1192.168.35.130Ubuntu12.xSparkWorker2192.168.35.131Ubuntu12.x2.配置linux環(huán)境1.1配置linux登錄時(shí)可以使用root賬戶1.2配置/etc/hostname,修改主機(jī)名SparkMaster,工作機(jī)為SparkWorker1、SparkWorker2
2、,重啟生效1.3配置/etc/hosts,如下圖1.4配置三臺機(jī)器SSH無密碼登錄3.安裝java環(huán)境,安裝到/usr/lib/java目錄,配置環(huán)境變量,驗(yàn)證成功,如下圖1.安裝hadoop1.1將hadoop安裝到/usr/local/hadoop目錄,配置環(huán)境變量1.2在$HADOOP_HOME下,按照下圖操作創(chuàng)建目錄,如下圖1.3進(jìn)入$HADOOP_HOME目錄,對配置文件進(jìn)行如下圖配置,如下圖首先,修改hadoop-env.sh,JAVA_HOME=我們java安裝目錄,如下圖然后,修
3、改yarn-env.sh,JAVA_HOME=我們java安裝目錄,如下圖然后,修改mapred-env.sh,JAVA_HOME=我們java安裝目錄,如下圖然后,修改slaves文件,將客戶機(jī)填寫到文件中,如下圖然后,修改core-site.xml,填寫如圖配置,如下圖然后,修改hdfs-site.xml,填寫如圖配置,如下圖然后,復(fù)制一份mapred-site.xml.template為mapred-site.xml,如下圖然后,修改yarn-site.xml,填寫如圖配置,如下圖最后,將
4、SparkMaster操作,同步到SparkWorker1和SparkWorker2上1.1啟動hadoop首先,收入hadoopnamenode–format,如下圖然后,啟動hdfs文件系統(tǒng),如下圖可以驗(yàn)證是否成功,使用jps命令,master有3個(gè)進(jìn)程,worker2有兩個(gè)進(jìn)程,如下圖同時(shí)登錄hdfs文件系統(tǒng)web界面查看配置情況,如下圖然后,啟動yarn集群,如下圖進(jìn)行驗(yàn)證,使用jps命令,如下圖最后,驗(yàn)證hadoop分布式集群在hdfs上,創(chuàng)建兩個(gè)文件夾,如下圖登錄,hdfs的web界
5、面,進(jìn)行查看,如下圖1.安裝scala安裝到/usr/lib/scala目錄下,配置環(huán)境變量,驗(yàn)證如下圖所有分布式集群都需要安裝。2.安裝spark1.1安裝到/usr/local/spark目錄,配置環(huán)境變量1.2修改spark配置文件,進(jìn)入$SPARK_HOME/conf目錄1.3修改slaves文件,如下圖1.1復(fù)制spark-env.sh.template到spark-env.sh,并對其進(jìn)行修改,如下圖1.2啟動spark集群,進(jìn)入sbin目錄,啟動start-all.sh如下圖啟動后
6、,jps命令,進(jìn)程列表中會多出一個(gè)master進(jìn)程,同樣工作機(jī),如下圖1.3到這里spark集群已經(jīng)啟動,我們可以登錄web,進(jìn)行驗(yàn)證1.1進(jìn)入bin目錄,啟動spark-shell,如下圖測試驗(yàn)證,spark集群這里不多做介紹,能成功啟動spark-shell,基本可以認(rèn)為集群配置成功。