基于hadoop基因序列比對bwt索引的建立方法研究

ID:35173821

大?。?.21 MB

頁數(shù):57頁

時(shí)間:2019-03-20

基于hadoop基因序列比對bwt索引的建立方法研究_第1頁
基于hadoop基因序列比對bwt索引的建立方法研究_第2頁
基于hadoop基因序列比對bwt索引的建立方法研究_第3頁
基于hadoop基因序列比對bwt索引的建立方法研究_第4頁
基于hadoop基因序列比對bwt索引的建立方法研究_第5頁
資源描述:

《基于hadoop基因序列比對bwt索引的建立方法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、?—'f嚴(yán)一:.供-'1k.--.-.,一.'興'‘,苗-LV-'一■.:’^"-'4:;.V;.、//r'■-■"?-?:?分類號Tf399學(xué)校代碼10129I)口C004學(xué)號2012210008'乂.又A秦走蔡嗦攀:文,;.碩±學(xué)位論文淵f'.號./語一;‘---'.,產(chǎn):.?、,/三V.基于Hadoop基因序列比對BWT索引的建立巧法硏究。一一TheBWTIndexBuildingMethodforaGene

2、Sequence,…一um.enon貸adoo,Aii臣tresearch.p??VV‘'.i.i非.戶.車'‘皆-"?’-.接.\屯,-‘與V、,k號.‘-:,旬請人李搞1、_,—?’:苗:^直學(xué)生類則;學(xué)術(shù)型碩丈賽爭戶一"'*.'>.—一:?,氣?;、、:、,‘學(xué)科n類:工學(xué)'古\.;叫廬--學(xué)科專業(yè)-A:軟件工程';.、,八:、硏究方向r、請:大數(shù)據(jù)與生物信息計(jì)算::X>'-^指導(dǎo)教師':高靜教授V'、'、

3、-.:,.:,.'一-.'乃.V!,乂、,’…?-V論文提交曰期:二〇六年六月r.-‘乂--/'-一'、-?二’‘,,戶'-'.一-:苗'起‘v:'Wn-棘"'-'一一-’-山?\?.一V;,:片.-棘.;.V內(nèi)蒙古農(nóng)業(yè)大學(xué)研究生學(xué)位論文獨(dú)創(chuàng)聲明本人申明所呈交的學(xué)位論文是我本人在哥師指巧F進(jìn)行的研究工作義取得的研究成果。據(jù)我所知,除了文中特別加化標(biāo)注和致謝的地方外,論文中不包括其他人邑經(jīng)發(fā)表或撰寫注的硏究成果,也不包一括為獲得我校或其他教育機(jī)構(gòu)的學(xué)位或證書而

4、使用過的材料,與我同了作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。…申請學(xué)位論文與資料若有不實(shí)么處,本人承捏切相關(guān)責(zé)任。'、論文作者簽名;屋?。壢眨犉冢汉ǎ┦崳妰?nèi)蒙古農(nóng)業(yè)大學(xué)研究生學(xué)位論文版權(quán)使用攝權(quán)書本人完全了解內(nèi)藻古農(nóng)化人學(xué)軒義保護(hù)知巧產(chǎn)權(quán)的規(guī)定,目y:硏究生巧攻—讀巧位卿閩論義[作的知識產(chǎn)化單位陸內(nèi)讓山農(nóng)化人學(xué)。本-人保化巧化離校V;,發(fā)灰論文典佔(zhàn);)U論義I作成料H紫中化為內(nèi)裘-..占農(nóng)業(yè)人學(xué)11.甘郵為遁!斗化1^,迪1|1作托單位亦紫^^為內(nèi)絮山化化乂學(xué)。學(xué)校材權(quán)保簡并向W滾徊

5、義部n或機(jī)構(gòu)送義論義的復(fù)印件和化子文檔,允許論文被沒閱和偕閱。學(xué)??晒紝W(xué)位論文的全就或部()、分內(nèi)容保密內(nèi)容除外,采用炭印縮印或其他手段保巧論文。論文作者簽名>;^?。崳娭笇?dǎo)教師簽名:日期:興摘要由于基因數(shù)據(jù)的增長速度飛快,人工進(jìn)行序列比對己經(jīng)無法滿足科研,比對是基因數(shù)據(jù)分人員的需求那么機(jī)器比對己經(jīng)走上了舞臺,基因序列一析和處理的基礎(chǔ)。而現(xiàn)在的序列比對算法大致分為兩類,類是精確比對一算法,另類是模糊比對算法。目前,大部分的基因序列比對方法都是啟:建立索引和序列比對發(fā)式算法,該類算法大致分為兩步,所W無論

6、是精確比對算法和非精確比對算法都離不開索引結(jié)構(gòu)。由此可見,建立索引是基因序列比對算法的重要步驟一,常見的索引構(gòu)建算法大致分為兩類,類一是基于哈希表的算法,另類是基于后綴樹或后綴數(shù)組的算法。而BWTBurrows-Whee(lerTransform)索引是基于后綴數(shù)組中比較重要的索引結(jié)構(gòu)。目前,構(gòu)建較大基因組序列(例如,人類基因組序列)的BWT索引需一種基于化要幾個(gè)小時(shí)的串行計(jì)算。本文提出doop的并行計(jì)算方法構(gòu)違后綴數(shù)組和BWT索引。算法使用MapReduce的數(shù)據(jù)處理功能,并且更改了原有的使用哈希方式的Par

7、titioner,本文使用直接分配任務(wù)來建立索引。一本文依次將基因鏈?zhǔn)椎膫€(gè)堿基輪轉(zhuǎn)到基因鏈尾并與鏈尾的17個(gè)字符形一成個(gè)Key{^及相應(yīng)的Map任務(wù),將這些Map任務(wù)根據(jù)新改寫Pa^itioner分配給Reduce。最終得到全序的后綴數(shù)組和BWT索引,減少建立索引的時(shí)間。通過實(shí)驗(yàn)數(shù)據(jù)表明,本文提出的方法可W節(jié)省索引構(gòu)建的時(shí)間,達(dá)到了預(yù)期目的,并驗(yàn)證了算法的有效性。Tadoo關(guān)鏈詞:基因序列duce;BW索引;后綴數(shù)組;Hp;MapReTheBWTinMetrIndexBuildghodfoaGene

8、SequenceAimentresearchonHadoolgnpAb'stiactWiththe

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。
关闭