基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用

基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用

ID:35177245

大小:5.09 MB

頁數(shù):51頁

時間:2019-03-20

基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用_第1頁
基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用_第2頁
基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用_第3頁
基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用_第4頁
基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用_第5頁
資源描述:

《基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、??、^,.V;:響涼;i;爲(wèi)y雪杉灣I''‘、學(xué)校代碼:10135義Z^一、吉;5xj遞L?‘^衣I.'卽夸分類號:《茜嶺善A―:;‘ ̄^"-fci:拷冰l:’ffI1;‘-..V.,^若vr'.古:.旬.V護(hù)V—如從乂凈心,1.兵襄飾解雜?。崳姡蔽福4T±學(xué)位論文'戶‘’''V'單';、'V、;、啼.多‘點(diǎn)..貨攻.r洽棘品.'苗苗^祕讀.4’刊:令基于宏平臺的機(jī)器學(xué)習(xí)?法并行化研究與應(yīng)用三.?夢';..:..;

2、々彎-P^\arallelresearchandapplicationofmachinelearning<a心lgoriUimbasedondoudlatform\\p戸_、、'<-聲?。丁瘽M雜''-.、:.如:>.聲古祭訪皆Tvv‘七非皆!海學(xué)科n類:工學(xué)f讀參鋼"_',.-級學(xué)科:軟件工程'f、雜.|l?'?4學(xué)科只、專業(yè):軟件工程乃苗f,=研究方向:生巧巧患學(xué)’‘。氣'申請人姓名心:巧方方..為山

3、jj齡祭巧導(dǎo)巧師姓名:兆華g:幕.戶巧義、實(shí)'?.,’今%請心托茄.t-'皆-V扛.?。墶觯唬А迹牐汗?jié)WV,《1.-yMv誠/i.托1山一參'.'、.^^,:合..:;;?^若..、^/令;^.汁:安吟:冷.^亦餐讓鉛,\於0學(xué)校代碼=1135論文分類號=學(xué)號:20U4019015研究生類別=全日制解姨據(jù)乂蜂碩±學(xué)位論文基于是平臺的奶器學(xué)習(xí)算法并行化研究與應(yīng)用ParallelresearchandappUca村onofmachin

4、elearningalorithmbasedoncloudlatformgp學(xué)科口類;工學(xué)-級學(xué)科:軟件工程學(xué)科、專業(yè):軟件工程研究方向:生物信息學(xué)申請人姓名:京方方巧導(dǎo)教師姓名:紀(jì)兆華—_六年四月八日獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果,盡我所知,除了文中特別加L乂標(biāo)注和致謝的地方外,論文中不包含其他人邑經(jīng)發(fā)表或撰寫過的研究成果,也不包含本人為獲得內(nèi)蒙古師范大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或

5、證書而使用過的材料。本人保證所呈交的論文不侵化國家機(jī)密一、商業(yè)秘密及其他合法權(quán)益。與我同工作的同志對本巧究所做的任何賈獻(xiàn)均己在論文中作了明確的說明并表示感謝。簽名;曰期:年月。曰UI(^關(guān)于論文使用授權(quán)的說明本學(xué)位論文作者完全了解內(nèi)蒙古師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:內(nèi)蒙古師范大學(xué)有權(quán)保留并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱,可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可米用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文,并

6、且本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。保密的學(xué)位論文在解密后也遵守此規(guī)定。.馨名如導(dǎo)師簽名:夢j皆麥方曰期;年曰WI^知內(nèi)蒙古師范大學(xué)碩±學(xué)位論文中文摘要隨著信息化時代的到來,數(shù)據(jù)成為了最為寶貴的資源,各行各業(yè)可處理的數(shù)據(jù)W指數(shù)形式增長,包括電子商務(wù)網(wǎng)站的各種商務(wù)數(shù)據(jù)、銀行的各種業(yè)務(wù)數(shù)據(jù)化及生物體的各種基因組數(shù)據(jù)等等,這種爆炸式的數(shù)據(jù)增長,。目前平很難在已有的平臺中得到有效的處理,Hadoop一臺是在大數(shù)據(jù)中挖掘出有用信息種相對高效率的并行化新技術(shù),使

7、用Map民educe(MR)編程框架,數(shù)據(jù)量越大,這種技術(shù)越能體現(xiàn)出其獨(dú)一特的優(yōu)勢。M地out是種開源的機(jī)器學(xué)習(xí)(ML)算法庫屬于Apache社區(qū),基于Hadoop平臺的MR計算框架,為程序開發(fā)者提供高效的算法實(shí)例。由于機(jī)器學(xué)習(xí)算法基本屬于迭代計算,而M民將中間數(shù)據(jù)存放在分布式文件處理系統(tǒng)HDFS上,I/O資源消耗高的局限()其具有性。原于M組out機(jī)器學(xué)習(xí)庫的缺陷,Spark計算框架應(yīng)運(yùn)而生,SparkRDD一主要基于彈性分布式數(shù)據(jù)集,RDD是分布式內(nèi)存的個抽象概()念,降低了I

8、/O資源消耗和容錯能力的開銷。Spark同樣可W搭建在HadoopYARN平臺上,分布式存儲數(shù)據(jù)。伴隨著SparkML化的出現(xiàn),使機(jī)器學(xué)習(xí)算法的并行化研究有了質(zhì)的提升。本文主要研究基于-SarkML1化的聚類算法Kmeans和分類算法決策樹及其組裝樹隨機(jī)p-means森林用來解決單機(jī)無法處理的基因組數(shù)據(jù)問題。K算法作為數(shù)據(jù)處理的第一二步,用于找到最佳的類別個數(shù)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。