資源描述:
《利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、利用序列信息預(yù)測DNA結(jié)合蛋白的深度學(xué)習(xí)算法研究OnthePredictionofDNA-BindingProteinsOnlyFromPrimarySequences:ADeepLearningApproach學(xué)科專業(yè):計算機(jī)科學(xué)與技術(shù)研究生:曲宇輝指導(dǎo)教師:宮秀軍副教授天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院二零一七年十一月萬方數(shù)據(jù)萬方數(shù)據(jù)摘要DNA結(jié)合蛋白通過與DNA相結(jié)合實現(xiàn)了轉(zhuǎn)錄、復(fù)制、選擇性剪貼和甲基化等多種功能,從而對生物體的調(diào)控機(jī)制發(fā)揮著不可替代的作用,根據(jù)氨基酸序列預(yù)測其功能逐漸成為生物信息學(xué)領(lǐng)域一項重要任務(wù)。隨著各類蛋白質(zhì)數(shù)據(jù)庫的構(gòu)建,越來越多研究人員開始從
2、海量生物數(shù)據(jù)中挖掘有用信息,探索生命的意義。近年來,多種被用來預(yù)測DNA結(jié)合蛋白功能的統(tǒng)計學(xué)以及機(jī)器學(xué)習(xí)方法被提出并不斷改進(jìn)。這些方法依賴于根據(jù)蛋白質(zhì)的結(jié)構(gòu)以及功能特性構(gòu)建的特征集合,而且在大數(shù)據(jù)集上不能取得滿意的預(yù)測效果。由于構(gòu)造合適的特征是一個困難的任務(wù),因此本文提出了一種卷積神經(jīng)網(wǎng)絡(luò)與長短記憶依賴網(wǎng)絡(luò)相結(jié)合的深度學(xué)習(xí)模型根據(jù)氨基酸序列預(yù)測DNA結(jié)合蛋白。模型使用兩層卷積神經(jīng)網(wǎng)絡(luò)搜索序列功能域,通過長短記憶依賴網(wǎng)絡(luò)保留序列中的氨基酸之間的位置依賴關(guān)系,通過自動學(xué)習(xí)特征,避免了繁瑣的人工提取環(huán)節(jié)。本文介紹了幾種具有代表性的氨基酸序列特征提取方法,并和傳統(tǒng)機(jī)器學(xué)習(xí)分
3、類算法結(jié)合進(jìn)行對比試驗。根據(jù)模型在平衡數(shù)據(jù)集,非平衡數(shù)據(jù)集,低冗余數(shù)據(jù)集上的實驗結(jié)果,證明了深度學(xué)習(xí)模型在大規(guī)模數(shù)據(jù)集預(yù)測任務(wù)中具有明顯的優(yōu)勢,和傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法相比,我們的模型具有更好的DNA結(jié)合蛋白預(yù)測能力。根據(jù)實驗證明,CNN與LSTM結(jié)合的深度學(xué)習(xí)模型具有良好的可靠性與泛化能力,在根據(jù)原始氨基酸序列進(jìn)行DNA結(jié)合蛋白預(yù)測問題上擁有顯著的效果。因此該模型是一個強(qiáng)大的DNA結(jié)合蛋白預(yù)測工具,同時在生物信息領(lǐng)域具有廣泛的應(yīng)用前景。關(guān)鍵詞:DNA結(jié)合蛋白,卷積神經(jīng)網(wǎng)絡(luò),長短記憶依賴網(wǎng)絡(luò),深度學(xué)習(xí)I萬方數(shù)據(jù)ABSTRACTTheinteractionbetwee
4、nDNA-bindingproteinandDNArealizesmanyfunctionssuchastranscription,replication,selectivescissionandmethylation,andthusplaysanirreplaceableroleintheregulationoforganisms.ThepredictionofproteinfunctionbasedonaminoacidsequencehasgraduallybecomeaImportanttask.Withtheconstructionofvariouskin
5、dsofproteindatabases,moreandmoreresearchersbegantodigusefulinformationfrommassivebiologicaldatatoexplorethemeaningoflife.Inrecentyears,avarietyofstatisticsandmachinelearningmethodshavebeenproposedforpredictingthefunctionofDNA-bindingproteins.Thesemethodsrelyonfeaturesetsconstructedfrom
6、proteinstructuresandfunctionalproperties,anddonotachievesatisfactorypredictiveresultsonlargedatasets.Sinceitisadifficulttasktoconstructsuitablefeatures,thispaperproposesadeeplearningmodelthatcombinesconvolutionalneuralnetworkswithlongandshortmemory-dependentnetworkstopredictDNA-binding
7、proteinsbasedonaminoacidsequences.Themodelusesatwo-layerconvolutionalneuralnetworktosearchforsequencedomainsandretainsthepositionaldependenceofaminoacidsinthesequencethroughLSTM,andavoidstediousmanualextractionbyautomaticallylearningfeatures.Thisarticledescribesseveralrepresentativem