利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究

ID：42482400

大小：1.21 MB

頁數(shù)：58頁

時間：2019-09-15

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第1頁

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第2頁

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第3頁

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第4頁

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第5頁

資源描述：

《利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究OnthePredictionofDNA-BindingProteinsOnlyFromPrimarySequences:ADeepLearningApproach學(xué)科專業(yè)：計算機(jī)科學(xué)與技術(shù)研究生：曲宇輝指導(dǎo)教師：宮秀軍副教授天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院二零一七年十一月萬方數(shù)據(jù)萬方數(shù)據(jù)摘要DNA結(jié)合蛋白通過與DNA相結(jié)合實現(xiàn)了轉(zhuǎn)錄、復(fù)制、選擇性剪貼和甲基化等多種功能，從而對生物體的調(diào)控機(jī)制發(fā)揮著不可替代的作用，根據(jù)氨基酸序列預(yù)測其功能逐漸成為生物信息學(xué)領(lǐng)域一項重要任務(wù)。隨著各類蛋白質(zhì)數(shù)據(jù)庫的構(gòu)建，越來越多研究人員開始從

2、海量生物數(shù)據(jù)中挖掘有用信息，探索生命的意義。近年來，多種被用來預(yù)測DNA結(jié)合蛋白功能的統(tǒng)計學(xué)以及機(jī)器學(xué)習(xí)方法被提出并不斷改進(jìn)。這些方法依賴于根據(jù)蛋白質(zhì)的結(jié)構(gòu)以及功能特性構(gòu)建的特征集合，而且在大數(shù)據(jù)集上不能取得滿意的預(yù)測效果。由于構(gòu)造合適的特征是一個困難的任務(wù)，因此本文提出了一種卷積神經(jīng)網(wǎng)絡(luò)與長短記憶依賴網(wǎng)絡(luò)相結(jié)合的深度學(xué)習(xí)模型根據(jù)氨基酸序列預(yù)測DNA結(jié)合蛋白。模型使用兩層卷積神經(jīng)網(wǎng)絡(luò)搜索序列功能域，通過長短記憶依賴網(wǎng)絡(luò)保留序列中的氨基酸之間的位置依賴關(guān)系，通過自動學(xué)習(xí)特征，避免了繁瑣的人工提取環(huán)節(jié)。本文介紹了幾種具有代表性的氨基酸序列特征提取方法，并和傳統(tǒng)機(jī)器學(xué)習(xí)分

3、類算法結(jié)合進(jìn)行對比試驗。根據(jù)模型在平衡數(shù)據(jù)集，非平衡數(shù)據(jù)集，低冗余數(shù)據(jù)集上的實驗結(jié)果，證明了深度學(xué)習(xí)模型在大規(guī)模數(shù)據(jù)集預(yù)測任務(wù)中具有明顯的優(yōu)勢，和傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法相比，我們的模型具有更好的DNA結(jié)合蛋白預(yù)測能力。根據(jù)實驗證明，CNN與LSTM結(jié)合的深度學(xué)習(xí)模型具有良好的可靠性與泛化能力，在根據(jù)原始氨基酸序列進(jìn)行DNA結(jié)合蛋白預(yù)測問題上擁有顯著的效果。因此該模型是一個強(qiáng)大的DNA結(jié)合蛋白預(yù)測工具，同時在生物信息領(lǐng)域具有廣泛的應(yīng)用前景。關(guān)鍵詞：DNA結(jié)合蛋白，卷積神經(jīng)網(wǎng)絡(luò)，長短記憶依賴網(wǎng)絡(luò)，深度學(xué)習(xí)I萬方數(shù)據(jù)ABSTRACTTheinteractionbetwee

4、nDNA-bindingproteinandDNArealizesmanyfunctionssuchastranscription,replication,selectivescissionandmethylation,andthusplaysanirreplaceableroleintheregulationoforganisms.ThepredictionofproteinfunctionbasedonaminoacidsequencehasgraduallybecomeaImportanttask.Withtheconstructionofvariouskin

5、dsofproteindatabases,moreandmoreresearchersbegantodigusefulinformationfrommassivebiologicaldatatoexplorethemeaningoflife.Inrecentyears,avarietyofstatisticsandmachinelearningmethodshavebeenproposedforpredictingthefunctionofDNA-bindingproteins.Thesemethodsrelyonfeaturesetsconstructedfrom

6、proteinstructuresandfunctionalproperties,anddonotachievesatisfactorypredictiveresultsonlargedatasets.Sinceitisadifficulttasktoconstructsuitablefeatures,thispaperproposesadeeplearningmodelthatcombinesconvolutionalneuralnetworkswithlongandshortmemory-dependentnetworkstopredictDNA-binding

7、proteinsbasedonaminoacidsequences.Themodelusesatwo-layerconvolutionalneuralnetworktosearchforsequencedomainsandretainsthepositionaldependenceofaminoacidsinthesequencethroughLSTM,andavoidstediousmanualextractionbyautomaticallylearningfeatures.Thisarticledescribesseveralrepresentativem

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 58



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究

相關(guān)文章

相關(guān)標(biāo)簽