資源描述:
《基于云平臺的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、??、^,.V;:響涼;i;爲(wèi)y雪杉灣I''‘、學(xué)校代碼:10135義Z^一、吉;5xj遞L?‘^衣I.'卽夸分類號:《茜嶺善A―:;‘ ̄^"-fci:拷冰l:’ffI1;‘-..V.,^若vr'.古:.旬.V護(hù)V—如從乂凈心,1.兵襄飾解雜?。崳姡蔽福4T±學(xué)位論文'戶‘’''V'單';、'V、;、啼.多‘點(diǎn)..貨攻.r洽棘品.'苗苗^祕讀.4’刊:令基于宏平臺的機(jī)器學(xué)習(xí)?法并行化研究與應(yīng)用三.?夢';..:..;
2、々彎-P^\arallelresearchandapplicationofmachinelearning<a心lgoriUimbasedondoudlatform\\p戸_、、'<-聲?。丁瘽M雜''-.、:.如:>.聲古祭訪皆Tvv‘七非皆!海學(xué)科n類:工學(xué)f讀參鋼"_',.-級學(xué)科:軟件工程'f、雜.|l?'?4學(xué)科只、專業(yè):軟件工程乃苗f,=研究方向:生巧巧患學(xué)’‘。氣'申請人姓名心:巧方方..為山
3、jj齡祭巧導(dǎo)巧師姓名:兆華g:幕.戶巧義、實(shí)'?.,’今%請心托茄.t-'皆-V扛.?。墶觯唬А迹牐汗?jié)WV,《1.-yMv誠/i.托1山一參'.'、.^^,:合..:;;?^若..、^/令;^.汁:安吟:冷.^亦餐讓鉛,\於0學(xué)校代碼=1135論文分類號=學(xué)號:20U4019015研究生類別=全日制解姨據(jù)乂蜂碩±學(xué)位論文基于是平臺的奶器學(xué)習(xí)算法并行化研究與應(yīng)用ParallelresearchandappUca村onofmachin
4、elearningalorithmbasedoncloudlatformgp學(xué)科口類;工學(xué)-級學(xué)科:軟件工程學(xué)科、專業(yè):軟件工程研究方向:生物信息學(xué)申請人姓名:京方方巧導(dǎo)教師姓名:紀(jì)兆華—_六年四月八日獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果,盡我所知,除了文中特別加L乂標(biāo)注和致謝的地方外,論文中不包含其他人邑經(jīng)發(fā)表或撰寫過的研究成果,也不包含本人為獲得內(nèi)蒙古師范大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或
5、證書而使用過的材料。本人保證所呈交的論文不侵化國家機(jī)密一、商業(yè)秘密及其他合法權(quán)益。與我同工作的同志對本巧究所做的任何賈獻(xiàn)均己在論文中作了明確的說明并表示感謝。簽名;曰期:年月。曰UI(^關(guān)于論文使用授權(quán)的說明本學(xué)位論文作者完全了解內(nèi)蒙古師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:內(nèi)蒙古師范大學(xué)有權(quán)保留并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱,可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可米用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文,并
6、且本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。保密的學(xué)位論文在解密后也遵守此規(guī)定。.馨名如導(dǎo)師簽名:夢j皆麥方曰期;年曰WI^知內(nèi)蒙古師范大學(xué)碩±學(xué)位論文中文摘要隨著信息化時代的到來,數(shù)據(jù)成為了最為寶貴的資源,各行各業(yè)可處理的數(shù)據(jù)W指數(shù)形式增長,包括電子商務(wù)網(wǎng)站的各種商務(wù)數(shù)據(jù)、銀行的各種業(yè)務(wù)數(shù)據(jù)化及生物體的各種基因組數(shù)據(jù)等等,這種爆炸式的數(shù)據(jù)增長,。目前平很難在已有的平臺中得到有效的處理,Hadoop一臺是在大數(shù)據(jù)中挖掘出有用信息種相對高效率的并行化新技術(shù),使
7、用Map民educe(MR)編程框架,數(shù)據(jù)量越大,這種技術(shù)越能體現(xiàn)出其獨(dú)一特的優(yōu)勢。M地out是種開源的機(jī)器學(xué)習(xí)(ML)算法庫屬于Apache社區(qū),基于Hadoop平臺的MR計算框架,為程序開發(fā)者提供高效的算法實(shí)例。由于機(jī)器學(xué)習(xí)算法基本屬于迭代計算,而M民將中間數(shù)據(jù)存放在分布式文件處理系統(tǒng)HDFS上,I/O資源消耗高的局限()其具有性。原于M組out機(jī)器學(xué)習(xí)庫的缺陷,Spark計算框架應(yīng)運(yùn)而生,SparkRDD一主要基于彈性分布式數(shù)據(jù)集,RDD是分布式內(nèi)存的個抽象概()念,降低了I
8、/O資源消耗和容錯能力的開銷。Spark同樣可W搭建在HadoopYARN平臺上,分布式存儲數(shù)據(jù)。伴隨著SparkML化的出現(xiàn),使機(jī)器學(xué)習(xí)算法的并行化研究有了質(zhì)的提升。本文主要研究基于-SarkML1化的聚類算法Kmeans和分類算法決策樹及其組裝樹隨機(jī)p-means森林用來解決單機(jī)無法處理的基因組數(shù)據(jù)問題。K算法作為數(shù)據(jù)處理的第一二步,用于找到最佳的類別個數(shù)