資源描述:
《基于序列譜的蛋白質(zhì)折疊識(shí)別和遠(yuǎn)同源性檢測》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文基于序列譜的蛋白質(zhì)折疊識(shí)別和遠(yuǎn)同源性檢測PROTEINFOLDRECOGNITIONANDREMOTEHOMOLOGYDETECTIONBASEDONPROFILES郭明月哈爾濱工業(yè)大學(xué)2017年12月國內(nèi)圖書分類號:TP391.4學(xué)校代碼:10213國際圖書分類號:621.3密級:公開工程碩士學(xué)位論文基于序列譜的蛋白質(zhì)折疊識(shí)別和遠(yuǎn)同源性檢測碩士研究生:郭明月導(dǎo)師:劉濱教授申請學(xué)位:工程碩士學(xué)科:計(jì)算機(jī)技術(shù)所在單位:深圳研究生院答辯日期:2017年12月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP391.4U.D.C:621.3Adissertationsu
2、bmittedinpartialfulfillmentoftherequirementsfortheprofessionaldegreeofMasterofEngineeringPROTEINFOLDRECOGNITIONANDREMOTEHOMOLOGYDETECTIONBASEDONPROFILESCandidate:MingyueGuoSupervisor:Prof.BinLiuAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:ShenzhenGraduateSch
3、oolDateofDefence:December,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要蛋白質(zhì)折疊識(shí)別和遠(yuǎn)同源性檢測問題是生物信息學(xué)領(lǐng)域的兩個(gè)基礎(chǔ)問題,解決問題的主要思想是根據(jù)蛋白質(zhì)序列信息的相似度推斷其結(jié)構(gòu)和功能的相似度。折疊識(shí)別問題難度高于遠(yuǎn)同源性檢測問題,因?yàn)榫哂邢嗤郫B結(jié)構(gòu)的蛋白質(zhì)的序列相似度低于具有遠(yuǎn)同源性關(guān)系的序列相似度,因此基于序列信息研究的折疊識(shí)別問題更具有挑戰(zhàn)性。近年來該領(lǐng)域的學(xué)者們給出了許多研究方法,其中基于序列譜的方法表現(xiàn)出優(yōu)秀的性能,因?yàn)樾蛄凶V中包
4、含了更多的蛋白質(zhì)進(jìn)化信息,比單一序列更具有代表性。目前基于序列譜的研究還存在很多不足和提升空間,因此本課題繼續(xù)蛋白質(zhì)序列譜的研究,主要在序列譜的生成過程中做了改進(jìn),分別采用兩種方法去除原始譜中的噪音。由于序列的長度不同,因此生成的序列譜的長度也會(huì)不同,為了使用機(jī)器學(xué)習(xí)算法,首先要將其轉(zhuǎn)化成固定長度的特征向量。本文主要采用了兩種序列譜的向量化轉(zhuǎn)換方法,分別是矩陣轉(zhuǎn)換方法和序列譜比對方法?;谝陨蟽煞N方法結(jié)合不同序列譜在蛋白質(zhì)折疊識(shí)別和遠(yuǎn)同源性檢測領(lǐng)域分別提出了多種預(yù)測模型,有效提升了預(yù)測性能。本課題首先提出了兩種去噪譜,將原始頻率譜中產(chǎn)生的噪音信息去除分別生成排序去噪譜和閾值去噪譜,并結(jié)合三
5、種不同的矩陣轉(zhuǎn)換方法將原始頻率譜和兩種去躁譜向量化表示,分別在蛋白質(zhì)折疊識(shí)別和遠(yuǎn)同源性檢測兩個(gè)問題上構(gòu)建了9個(gè)預(yù)測模型,在比較不同轉(zhuǎn)換方法性能的同時(shí),驗(yàn)證了序列譜中噪音對預(yù)測性能的影響。繼而采用了另一種序列譜向量化方法即目前性能表現(xiàn)最優(yōu)的序列譜比對方法,本文基于此方法設(shè)計(jì)了更具有解釋性的比對策略,并結(jié)合包含更多進(jìn)化信息的序列順序依賴頻率譜(SOFM)提出了SOFM-SW預(yù)測模型,實(shí)驗(yàn)分析了序列譜中信息量對比對算法的影響。針對序列譜比對算法的不足,本文進(jìn)一步研究了其中的關(guān)鍵部分即打分函數(shù),分別介紹了6種不同打分函數(shù)的原理,并采用這6種不同的打分函數(shù)在蛋白質(zhì)折疊識(shí)別和遠(yuǎn)同源檢測問題上進(jìn)行實(shí)驗(yàn)驗(yàn)
6、證,結(jié)合兩種去噪譜和原始頻率譜生成了18個(gè)預(yù)測模型,實(shí)驗(yàn)分析了6種打分函數(shù)的性能和序列譜中噪音對于比對算法的影響。并將本課題使用的兩種向量化方法結(jié)合不同序列譜的性能進(jìn)行了綜合比較,針對兩個(gè)問題給出譜和向量化方法的選取建議。關(guān)鍵詞:蛋白質(zhì)折疊識(shí)別和遠(yuǎn)同源性檢測;矩陣轉(zhuǎn)換;序列順序依賴頻率譜;去噪譜;序列譜比對;打分函數(shù)-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractProteinfoldrecognitionandremotehomologydetectionaretwobasicproblemsinbioinformatics.Themainideaofsolvingtheproble
7、msistoinferthestructureandfunctionofproteinaccordingtothesimilarityofproteinsequenceinformation.Theproblemoffoldrecognitionismoredifficultthanremotehomologydetection,becausethesimilaritybetweenproteinsequenceswit