基于gwqpso和bwt的dna序列壓縮算法研究

基于gwqpso和bwt的dna序列壓縮算法研究

ID:35176636

大?。?.69 MB

頁數(shù):72頁

時(shí)間:2019-03-20

基于gwqpso和bwt的dna序列壓縮算法研究_第1頁
基于gwqpso和bwt的dna序列壓縮算法研究_第2頁
基于gwqpso和bwt的dna序列壓縮算法研究_第3頁
基于gwqpso和bwt的dna序列壓縮算法研究_第4頁
基于gwqpso和bwt的dna序列壓縮算法研究_第5頁
資源描述:

《基于gwqpso和bwt的dna序列壓縮算法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、碩士學(xué)位論文基于GWQPSO和BWT的DNA序列壓縮算法研究作者姓名譚紅艷學(xué)科專業(yè)信號與信息處理指導(dǎo)教師孫季豐所在學(xué)院電子與信息學(xué)院論文提交日期2016年4月ResearchonDNAsequencecompressionalgorithmbasedonGWQPSOandBWTADissertationSubmittedfortheDegreeofMasterCandidate:TanHongyanSupervisor:Prof.SunJifengSouthChinaUniversityofTechnologyGuangzhou,China分類號:

2、TP391.41學(xué)校代號:10561學(xué)號:201320109262華南理工大學(xué)碩士學(xué)位論文基于GWQPSO和BWT的DNA序列壓縮算法研究作者姓名:譚紅艷指導(dǎo)教師姓名、職稱:孫季豐教授申請學(xué)位級別:工學(xué)碩士學(xué)科專業(yè)名稱:信號與信息處理研究方向:生物信息學(xué)數(shù)據(jù)處理論文提交日期:2016年4月21日論文答辯日期:2016年6月7日學(xué)位授予單位:華南理工大學(xué)學(xué)位授予日期:年月日答辯委員會成員:主席:柯峰副教授委員:馮穗力教授、張永忠教授級高工、薛鋒章研究員、孫季豐教授華南理工大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立

3、進(jìn)行研究所取得的研巧成果。除了文中特別加標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫的成果作品。對本文的研究做出重要貢獻(xiàn)的個(gè)人和集體。,均己在文中明確方式標(biāo)明本人完全意識到本聲明的法律后果由本人承擔(dān)。:列年6作者簽名軒扳日期;月8日/學(xué)位論文版權(quán)使用授權(quán)書,本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、巧學(xué)位論文的規(guī)定,目P:.巧研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬華南理工大學(xué)。學(xué)校有權(quán)保存并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許學(xué)位論文被查閱(除在保密期內(nèi)的保密論文外);學(xué)

4、??桑蓿椤龉紝W(xué)位論文的全[部或部分內(nèi)容,可1^^允許采用影印、縮印或其它復(fù)制手段保存、匯編學(xué)位一論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相致。本學(xué)位論文屬于:□保密,在年解密后適用本授權(quán)書。時(shí)不保密,同意在校園網(wǎng)上發(fā)布,供校內(nèi)師生和與學(xué)校有共享協(xié)議的單位瀏覽;同意將本人學(xué)位論文提交中國學(xué)術(shù)期刊(光盤版)電子雜志杜全文出版和編入CNKI《中國知識資源總庫》,傳播學(xué)位論文的全部或部分內(nèi)容。""V(請?jiān)冢咨舷鄳?yīng)方框內(nèi)打)的托興曰作者簽名:渾,^日期;崎八:牙指導(dǎo)教師簽名日期:作系箱:者聯(lián)電話電

5、子郵:聯(lián)系地址(含郵)編摘要DNA數(shù)據(jù)作為生物信息的遺傳指令碼本,控制著生物體的信息表達(dá)與機(jī)能運(yùn)作,已成為當(dāng)下的研究熱點(diǎn)。隨著基因測序工程的火熱開展,大量DNA數(shù)據(jù)應(yīng)運(yùn)而生,儲存、處理、解析這些海量數(shù)據(jù)將帶來的巨大的存儲及傳輸壓力。不同于常規(guī)文本數(shù)據(jù),DNA序列數(shù)據(jù)具有特殊的生物信息特點(diǎn),若直接采取普適性的壓縮算法并不能取得良好的壓縮效果,需要研究專門針對DNA數(shù)據(jù)的壓縮算法。現(xiàn)有的算法在搜索DNA序列中存在的近似匹配信息時(shí)花費(fèi)了較多的時(shí)間和空間但提升效果并不顯著?;诖?,本文對DNA序列進(jìn)行研究分析,針對DNA序列中的精確重復(fù)片段信息,一采取

6、優(yōu)化算法對DNA序列進(jìn)行重復(fù)片段搜索匹配,二利用BWT聚集DNA序列中的堿基字符以獲取更多的重復(fù)片段信息,具體工作如下:(1)本文對DNA序列數(shù)據(jù)的特點(diǎn)、普適性壓縮算法的原理、DNA數(shù)據(jù)壓縮算法及DNA數(shù)據(jù)壓縮算法的性能評價(jià)指標(biāo)進(jìn)行細(xì)致分析,為后續(xù)的研究做好鋪墊。(2)針對構(gòu)建字典的重復(fù)信息片段的選取,本文提出基于GWQPSO的DNA序列壓縮算法:先將DNA數(shù)據(jù)的重復(fù)片段模式與粒子的維度信息之間建立映射關(guān)系,對輸入序列進(jìn)行連續(xù)編碼,使用改進(jìn)的GWQPSO算法(加入高斯變異因子和改變權(quán)重系數(shù),具有更好收斂特性)來尋優(yōu)DNA重復(fù)信息碼本映射的粒子,種群

7、進(jìn)化的同時(shí)獲取到更優(yōu)匹配重復(fù)片段信息,達(dá)到優(yōu)化壓縮字典,提高壓縮性能的目的。(3)本文利用BWT具有聚集相同字符的特點(diǎn),對DNA序列變換以獲取更多的重復(fù)片段信息,并針對DNA序列數(shù)據(jù)的重復(fù)片段信息的利用,本文提出改進(jìn)多重字典進(jìn)行迭代,對得到的迭代字典結(jié)果采用基于改進(jìn)PPM的二階算術(shù)編碼模型編碼輸出。實(shí)驗(yàn)表明加入BWT后可以使DNA序列的重復(fù)信息得到更好利用,壓縮效果更優(yōu)。本文提出的兩個(gè)DNA序列壓縮算法分別在DNA基準(zhǔn)測序數(shù)據(jù)及大序列數(shù)據(jù)測試集上進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明,算法對DNA序列數(shù)據(jù)重復(fù)信息的提取及利用均可獲得較好收益,與現(xiàn)有的DNA數(shù)據(jù)壓縮

8、算法相比具有不錯(cuò)的壓縮性能及良好的魯棒性。關(guān)鍵詞:生物信息;DNA序列;GWQPSO;BWT;字典迭代IAbstractA

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。