利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究

ID:42482400

大小:1.21 MB

頁數(shù):58頁

時間:2019-09-15

利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第1頁
利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第2頁
利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第3頁
利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第4頁
利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究_第5頁
資源描述:

《利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究OnthePredictionofDNA-BindingProteinsOnlyFromPrimarySequences:ADeepLearningApproach學(xué)科專業(yè):計算機(jī)科學(xué)與技術(shù)研究生:曲宇輝指導(dǎo)教師:宮秀軍副教授天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院二零一七年十一月萬方數(shù)據(jù)萬方數(shù)據(jù)摘要DNA結(jié)合蛋白通過與DNA相結(jié)合實現(xiàn)了轉(zhuǎn)錄、復(fù)制、選擇性剪貼和甲基化等多種功能,從而對生物體的調(diào)控機(jī)制發(fā)揮著不可替代的作用,根據(jù)氨基酸序列預(yù)測其功能逐漸成為生物信息學(xué)領(lǐng)域一項重要任務(wù)。隨著各類蛋白質(zhì)數(shù)據(jù)庫的構(gòu)建,越來越多研究人員開始從

2、海量生物數(shù)據(jù)中挖掘有用信息,探索生命的意義。近年來,多種被用來預(yù)測DNA結(jié)合蛋白功能的統(tǒng)計學(xué)以及機(jī)器學(xué)習(xí)方法被提出并不斷改進(jìn)。這些方法依賴于根據(jù)蛋白質(zhì)的結(jié)構(gòu)以及功能特性構(gòu)建的特征集合,而且在大數(shù)據(jù)集上不能取得滿意的預(yù)測效果。由于構(gòu)造合適的特征是一個困難的任務(wù),因此本文提出了一種卷積神經(jīng)網(wǎng)絡(luò)與長短記憶依賴網(wǎng)絡(luò)相結(jié)合的深度學(xué)習(xí)模型根據(jù)氨基酸序列預(yù)測DNA結(jié)合蛋白。模型使用兩層卷積神經(jīng)網(wǎng)絡(luò)搜索序列功能域,通過長短記憶依賴網(wǎng)絡(luò)保留序列中的氨基酸之間的位置依賴關(guān)系,通過自動學(xué)習(xí)特征,避免了繁瑣的人工提取環(huán)節(jié)。本文介紹了幾種具有代表性的氨基酸序列特征提取方法,并和傳統(tǒng)機(jī)器學(xué)習(xí)分

3、類算法結(jié)合進(jìn)行對比試驗。根據(jù)模型在平衡數(shù)據(jù)集,非平衡數(shù)據(jù)集,低冗余數(shù)據(jù)集上的實驗結(jié)果,證明了深度學(xué)習(xí)模型在大規(guī)模數(shù)據(jù)集預(yù)測任務(wù)中具有明顯的優(yōu)勢,和傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法相比,我們的模型具有更好的DNA結(jié)合蛋白預(yù)測能力。根據(jù)實驗證明,CNN與LSTM結(jié)合的深度學(xué)習(xí)模型具有良好的可靠性與泛化能力,在根據(jù)原始氨基酸序列進(jìn)行DNA結(jié)合蛋白預(yù)測問題上擁有顯著的效果。因此該模型是一個強(qiáng)大的DNA結(jié)合蛋白預(yù)測工具,同時在生物信息領(lǐng)域具有廣泛的應(yīng)用前景。關(guān)鍵詞:DNA結(jié)合蛋白,卷積神經(jīng)網(wǎng)絡(luò),長短記憶依賴網(wǎng)絡(luò),深度學(xué)習(xí)I萬方數(shù)據(jù)ABSTRACTTheinteractionbetwee

4、nDNA-bindingproteinandDNArealizesmanyfunctionssuchastranscription,replication,selectivescissionandmethylation,andthusplaysanirreplaceableroleintheregulationoforganisms.ThepredictionofproteinfunctionbasedonaminoacidsequencehasgraduallybecomeaImportanttask.Withtheconstructionofvariouskin

5、dsofproteindatabases,moreandmoreresearchersbegantodigusefulinformationfrommassivebiologicaldatatoexplorethemeaningoflife.Inrecentyears,avarietyofstatisticsandmachinelearningmethodshavebeenproposedforpredictingthefunctionofDNA-bindingproteins.Thesemethodsrelyonfeaturesetsconstructedfrom

6、proteinstructuresandfunctionalproperties,anddonotachievesatisfactorypredictiveresultsonlargedatasets.Sinceitisadifficulttasktoconstructsuitablefeatures,thispaperproposesadeeplearningmodelthatcombinesconvolutionalneuralnetworkswithlongandshortmemory-dependentnetworkstopredictDNA-binding

7、proteinsbasedonaminoacidsequences.Themodelusesatwo-layerconvolutionalneuralnetworktosearchforsequencedomainsandretainsthepositionaldependenceofaminoacidsinthesequencethroughLSTM,andavoidstediousmanualextractionbyautomaticallylearningfeatures.Thisarticledescribesseveralrepresentativem

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。