資源描述:
《基于序列信息的DNA_RNA結(jié)合蛋白識別.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文基于序列信息的DNA/RNA結(jié)合蛋白識別RECOGNITIONOFDNA/RNABINDINGPROTEINSBASEDONSEQUENCEINFORMATION張軍哈爾濱工業(yè)大學(xué)2018年6月國內(nèi)圖書分類號:TP391.4學(xué)校代碼:10213國際圖書分類號:621.3密級:公開工學(xué)碩士學(xué)位論文基于序列信息的DNA/RNA結(jié)合蛋白識別碩士研究生:張軍導(dǎo)師:劉濱教授申請學(xué)位:工學(xué)碩士學(xué)科:計算機(jī)科學(xué)與技術(shù)所在單位:深圳研究生院答辯日期:2018年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)Class
2、ifiedIndex:TP391.4U.D.C:621.3AdissertationsubmittedinpartialfulfillmentoftherequirementsfortheacademicdegreeofMasterofEngineeringRECOGNITIONOFDNA/RNABINDINGPROTEINSBASEDONSEQUENCEINFORMATIONCandidate:JunZhangSupervisor:Prof.BinLiuAcademicDegreeApplied
3、for:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文摘要隨著基因組計劃的啟動和發(fā)展,蛋白質(zhì)序列每年呈指數(shù)趨勢爆炸式增長,然而其中已知結(jié)構(gòu)和功能的蛋白質(zhì)數(shù)量卻增長緩慢。面對日
4、益增多的蛋白質(zhì)序列,如何從中挖掘有用的信息進(jìn)而有效地預(yù)測蛋白質(zhì)的結(jié)構(gòu)和功能成為當(dāng)前一個亟待解決的難題。DNA和RNA結(jié)合蛋白是兩種特殊的蛋白質(zhì),它們在多種有關(guān)基因的生命活動中扮演重要的角色,與很多疾病相關(guān)。雖然基于實驗的方法能夠比較準(zhǔn)確地識別這兩種蛋白,但這些方法的成本都非常高,而且對實驗環(huán)境和設(shè)備有嚴(yán)格的要求。為了設(shè)計更加高效快捷的DNA和RNA結(jié)合蛋白識別方法,本課題以蛋白質(zhì)序列信息為基礎(chǔ),對DNA和RNA結(jié)合蛋白識別問題進(jìn)行了研究。針對現(xiàn)有基于序列的DNA結(jié)合蛋白識別方法性能有限的問題,本文
5、設(shè)計了一個基于加權(quán)投票的集成學(xué)習(xí)策略,結(jié)合現(xiàn)有的三種蛋白質(zhì)表示方法(k-mer,PDT和PDT-Profile)及SVM算法構(gòu)建了一個DNA結(jié)合蛋白識別模型iDNA-Prot-Vote。在國際上兩個廣泛使用的數(shù)據(jù)集上對其進(jìn)行了測試,結(jié)果表明本文所提集成方法能夠在基分類器的基礎(chǔ)上提升DNA結(jié)合蛋白識別準(zhǔn)確率,且集成模型iDNA-Prot-Vote的識別準(zhǔn)確率高于大多數(shù)現(xiàn)存的方法。針對如何有效地表示蛋白質(zhì)序列的問題,本文設(shè)計了三種基于PSFM譜的蛋白質(zhì)特征提取方法,包括PSFM-DBT,PSFM-TT
6、和PSFM-RPT。在基準(zhǔn)數(shù)據(jù)集和獨立測試集上的測試結(jié)果表明本文所提的三種方法在DNA結(jié)合蛋白識別問題上優(yōu)于大多數(shù)現(xiàn)存方法,且PSFM-DBT方法取得了最高的預(yù)測準(zhǔn)確率。為了驗證所提方法的有效性,本文在分子生物學(xué)層面對PSFM-DBT提取到的特征進(jìn)行了分析,結(jié)果表明該方法確實能夠有效抓取蛋白質(zhì)特征。基于PSFM-DBT方法本文構(gòu)建了一個DNA結(jié)合蛋白預(yù)測模型,并開發(fā)了相應(yīng)的在線預(yù)測系統(tǒng)。針對DNA和RNA結(jié)合蛋白識別領(lǐng)域沒有能夠同時識別DNA結(jié)合蛋白、RNA結(jié)合蛋白以及非核酸結(jié)合蛋白的方法,本文基
7、于深度學(xué)習(xí)技術(shù)提出了第一個能夠識別上述三種蛋白質(zhì)的方法DeepDRBP。DeepDRBP分為兩層,每層是一個分類模型,由一種深度神經(jīng)網(wǎng)絡(luò)結(jié)合一種蛋白質(zhì)進(jìn)化信息譜構(gòu)成。第一層用來區(qū)分核酸結(jié)合蛋白(DNA/RNA-bindingproteins)和非核酸結(jié)合蛋白,第二層用來進(jìn)一步確定在第一層中被預(yù)測為核酸結(jié)合蛋白的查詢蛋白是DNA結(jié)合蛋白還是RNA結(jié)合蛋白。在基準(zhǔn)數(shù)據(jù)集和Swiss-Prot新增蛋白質(zhì)上的測試結(jié)果表明本文所提方法是一種有效的識別方法。此外,本文還提供了相應(yīng)的在線預(yù)測系統(tǒng)。關(guān)鍵詞:DNA
8、結(jié)合蛋白質(zhì);RNA結(jié)合蛋白質(zhì);PSFM-DBT;集成學(xué)習(xí);深度學(xué)習(xí)-I-哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文AbstractWiththestart-upanddevelopmentofthegenomeproject,thenumberofproteinsequencesisincreasingexponentially.However,thenumberofproteinswithstructureandfunctionisincreasingslowly.Howtoextractu