基于spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)

基于spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)

ID:35058678

大?。?.67 MB

頁數(shù):63頁

時間:2019-03-17

基于spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)_第1頁
基于spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)_第2頁
基于spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)_第3頁
基于spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)_第4頁
基于spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)_第5頁
資源描述:

《基于spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫

1、乂il謹又大聾DALIANUNIVERSITYOFTECHNOLOGYI福損±享恆巧文MASTE民ALDISSERTATION基于Spark的海量數(shù)據(jù)計算平臺設計與實現(xiàn)軟紅S工程領域作者姓名指導教師201答辯曰期16年6月曰專業(yè)學位碩±學位論文基于Spa化的海量數(shù)據(jù)計算平臺設計與實現(xiàn)DesinandImlementationoftheMassiveDataComu村ngppgPlatformBasedonSarkp作者姓名:蔣昆佑工程領域:軟件工程學號:314170

2、13指導教師:陳志奎20--1620完成日期:3乂金巧義乂#DalianUniofversityTechnology大連理王大學學位論文獨創(chuàng)性聲明作者鄭重聲明:所呈交的學位論文,是本人在導師的指導下進行研究工作所取得的成果。盡我所知,除文中己經注明引用巧容和致謝的地方外,本論文不包含其他個人或集體己經發(fā)表的研究成果,也不包含其他已申請學位或其他用途使用過的成果一。與我同工作的同志對本研究所做的貢獻均己在論文中做了明確的說明并表示了謝意。若有不實之處,本人愿意承擔相關法律責任。學位論文題目:基于Spark的海量數(shù)據(jù)計算

3、平臺設計與實現(xiàn)//<¥作者簽名:佑日期:於年月日—大連理工大學專業(yè)學位碩±學位論文摘要數(shù)據(jù)處理技術主要包括數(shù)據(jù)存儲和數(shù)據(jù)計算技術,其主要目標是實現(xiàn)各種數(shù)據(jù)集的AMP一挖掘分析工作。近幾年,UCBerkekyLab開發(fā)的新代數(shù)據(jù)處理框架sark逐漸p,它完善了早期流行的HadooRDD走進人們視野p框架,提出了彈性分布式數(shù)據(jù)集R一(esilientDistrib山edDatasets)和更靈活多樣的編程模式,給數(shù)據(jù)的處理工作提供了條更簡單、更快捷的途徑。隨著大數(shù)據(jù)時代的到來,很多公司企業(yè)都會經常碰到海量數(shù)據(jù)處理分析的問題?,F(xiàn)一存

4、的些海量數(shù)據(jù)處理工具大多收費,并且存在操作復雜、算法不可定制、處理結果不直觀等問題。本文所述的海量數(shù)據(jù)計算平臺后臺基于Spark集群,可W高效實現(xiàn)海量數(shù)據(jù)的存儲和計算工作。在此基礎上,提供算法自定義功能,用戶通過提交算法包,并簡單配置即可使自定義算法運行在該平臺上。前臺基于Webx框架,W網站形式對外提供服務,降低用戶學習傳統(tǒng)命令行操作的成本,實現(xiàn)Spark操作完全圖形化。平臺還對數(shù)據(jù)處理結果進行多樣可視化展示,為后期深入研究提供了便利。本文首先對Spark和W沈開發(fā)技術的現(xiàn)狀進行介紹和分析,詳細闡述當前海量數(shù)據(jù),處理面臨的問題并整理出海量數(shù)據(jù)計算平臺的功

5、能、性能等需求。在此基礎上,針對該平臺使用的Webx開源框架進行具體介紹,并利用框架提供的各種服務設計實現(xiàn)前端網站的整體功能,。然后分析并行編程模型利用開源算法庫MU化實現(xiàn)經典機器學習算法。接著分析平臺的數(shù)據(jù)存儲機制,使用Mysql存儲用戶和算法信息,結合HDFS存儲輸入文件。最后通過遠程連接技術SecureShell實現(xiàn)前臺網站與后臺Spark集群的交互。關鍵詞:海量數(shù)據(jù);Webx;Spark;可視化-I-基于Sparic的海量數(shù)據(jù)計算平臺設計與實現(xiàn)DesignandImplementationoftheMassiveDataC

6、omputingPlatformBasedonSarkpAbstractThedatarocessin1;echnologyiscombinedwi出datasl:oraeanddatacomutatio打thatpggptstiiitItimainoalisoachievemnnanalsisforallkndsofdaa.nrecenearsUCBerkeleggyy,yAMPLabdevelopsanewframeworkformassivedataprocessingcal

7、ledSparkwhichisraduallintoourhorizon.Itis打otonlerfectstheearloularHadooframeworkbutgyypyppp,asotitistteatasetRDD民esilientDitriDatasetsandmoreloprposesheresilendribudds(sbubd)flex化leroramminmodelwh

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。