資源描述:
《基于hadoop基因序列比對bwt索引的建立方法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、?—'f嚴(yán)一:.供-'1k.--.-.,一.'興'‘,苗-LV-'一■.:’^"-'4:;.V;.、//r'■-■"?-?:?分類號Tf399學(xué)校代碼10129I)口C004學(xué)號2012210008'乂.又A秦走蔡嗦攀:文,;.碩±學(xué)位論文淵f'.號./語一;‘---'.,產(chǎn):.?、,/三V.基于Hadoop基因序列比對BWT索引的建立巧法硏究。一一TheBWTIndexBuildingMethodforaGene
2、Sequence,…一um.enon貸adoo,Aii臣tresearch.p??VV‘'.i.i非.戶.車'‘皆-"?’-.接.\屯,-‘與V、,k號.‘-:,旬請人李搞1、_,—?’:苗:^直學(xué)生類則;學(xué)術(shù)型碩丈賽爭戶一"'*.'>.—一:?,氣?;、、:、,‘學(xué)科n類:工學(xué)'古\.;叫廬--學(xué)科專業(yè)-A:軟件工程';.、,八:、硏究方向r、請:大數(shù)據(jù)與生物信息計(jì)算::X>'-^指導(dǎo)教師':高靜教授V'、'、
3、-.:,.:,.'一-.'乃.V!,乂、,’…?-V論文提交曰期:二〇六年六月r.-‘乂--/'-一'、-?二’‘,,戶'-'.一-:苗'起‘v:'Wn-棘"'-'一一-’-山?\?.一V;,:片.-棘.;.V內(nèi)蒙古農(nóng)業(yè)大學(xué)研究生學(xué)位論文獨(dú)創(chuàng)聲明本人申明所呈交的學(xué)位論文是我本人在哥師指巧F進(jìn)行的研究工作義取得的研究成果。據(jù)我所知,除了文中特別加化標(biāo)注和致謝的地方外,論文中不包括其他人邑經(jīng)發(fā)表或撰寫注的硏究成果,也不包一括為獲得我校或其他教育機(jī)構(gòu)的學(xué)位或證書而
4、使用過的材料,與我同了作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。…申請學(xué)位論文與資料若有不實(shí)么處,本人承捏切相關(guān)責(zé)任。'、論文作者簽名;屋?。壢眨犉冢汉ǎ┦崳妰?nèi)蒙古農(nóng)業(yè)大學(xué)研究生學(xué)位論文版權(quán)使用攝權(quán)書本人完全了解內(nèi)藻古農(nóng)化人學(xué)軒義保護(hù)知巧產(chǎn)權(quán)的規(guī)定,目y:硏究生巧攻—讀巧位卿閩論義[作的知識產(chǎn)化單位陸內(nèi)讓山農(nóng)化人學(xué)。本-人保化巧化離校V;,發(fā)灰論文典佔(zhàn);)U論義I作成料H紫中化為內(nèi)裘-..占農(nóng)業(yè)人學(xué)11.甘郵為遁!斗化1^,迪1|1作托單位亦紫^^為內(nèi)絮山化化乂學(xué)。學(xué)校材權(quán)保簡并向W滾徊
5、義部n或機(jī)構(gòu)送義論義的復(fù)印件和化子文檔,允許論文被沒閱和偕閱。學(xué)??晒紝W(xué)位論文的全就或部()、分內(nèi)容保密內(nèi)容除外,采用炭印縮印或其他手段保巧論文。論文作者簽名>;^?。崳娭笇?dǎo)教師簽名:日期:興摘要由于基因數(shù)據(jù)的增長速度飛快,人工進(jìn)行序列比對己經(jīng)無法滿足科研,比對是基因數(shù)據(jù)分人員的需求那么機(jī)器比對己經(jīng)走上了舞臺,基因序列一析和處理的基礎(chǔ)。而現(xiàn)在的序列比對算法大致分為兩類,類是精確比對一算法,另類是模糊比對算法。目前,大部分的基因序列比對方法都是啟:建立索引和序列比對發(fā)式算法,該類算法大致分為兩步,所W無論
6、是精確比對算法和非精確比對算法都離不開索引結(jié)構(gòu)。由此可見,建立索引是基因序列比對算法的重要步驟一,常見的索引構(gòu)建算法大致分為兩類,類一是基于哈希表的算法,另類是基于后綴樹或后綴數(shù)組的算法。而BWTBurrows-Whee(lerTransform)索引是基于后綴數(shù)組中比較重要的索引結(jié)構(gòu)。目前,構(gòu)建較大基因組序列(例如,人類基因組序列)的BWT索引需一種基于化要幾個(gè)小時(shí)的串行計(jì)算。本文提出doop的并行計(jì)算方法構(gòu)違后綴數(shù)組和BWT索引。算法使用MapReduce的數(shù)據(jù)處理功能,并且更改了原有的使用哈希方式的Par
7、titioner,本文使用直接分配任務(wù)來建立索引。一本文依次將基因鏈?zhǔn)椎膫€(gè)堿基輪轉(zhuǎn)到基因鏈尾并與鏈尾的17個(gè)字符形一成個(gè)Key{^及相應(yīng)的Map任務(wù),將這些Map任務(wù)根據(jù)新改寫Pa^itioner分配給Reduce。最終得到全序的后綴數(shù)組和BWT索引,減少建立索引的時(shí)間。通過實(shí)驗(yàn)數(shù)據(jù)表明,本文提出的方法可W節(jié)省索引構(gòu)建的時(shí)間,達(dá)到了預(yù)期目的,并驗(yàn)證了算法的有效性。Tadoo關(guān)鏈詞:基因序列duce;BW索引;后綴數(shù)組;Hp;MapReTheBWTinMetrIndexBuildghodfoaGene
8、SequenceAimentresearchonHadoolgnpAb'stiactWiththe