資源描述:
《基于機(jī)器學(xué)習(xí)算法的DNA重組與非編碼RNA預(yù)測(cè)模型研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、東南大學(xué)博士學(xué)位論文中文摘要論文題目:基于機(jī)器學(xué)習(xí)算法的DNA重組與非編碼RNA預(yù)測(cè)模型研究研究生姓名:江澎導(dǎo)師姓名:陸祖宏(教授)學(xué)校名稱:東南大學(xué)在生物試驗(yàn)數(shù)據(jù)不斷積累的今天,如何將數(shù)據(jù)變?yōu)橹R(shí)和具有預(yù)測(cè)和推廣功能數(shù)學(xué)模型將是一項(xiàng)十分具有挑戰(zhàn)性和有意義的事情。近代機(jī)器學(xué)習(xí)技術(shù)的迅猛發(fā)展,為這‘‘研究提供了新的思路。DNA的同源重組和非編碼RNA,作為后基因組時(shí)代的兩個(gè)熱門話題,受到了各國(guó)科學(xué)家高度的重視。本義止是利用機(jī)器學(xué)習(xí)方法對(duì)這兩個(gè)話題的幾個(gè)分支問題進(jìn)行了研究,其主要工作包括:(I)真核生物減數(shù)分裂
2、過(guò)程中,基兇組某螳區(qū)域會(huì)發(fā)生較其它區(qū)域高的重組發(fā)生頻率,這些區(qū)域被稱作減數(shù)分裂重組熱點(diǎn)(Hotspot)。與此相對(duì)應(yīng),減數(shù)分裂重組發(fā)生頻率較低的區(qū)域我們稱之為重組冷點(diǎn)(Coldspot)。雖然這些對(duì)重組冷熱點(diǎn)的影響因素的研究有助_j.進(jìn)一步揭示DNA重組的發(fā)生機(jī)制和成因.但是僅僅通過(guò)DNA的序列來(lái)預(yù)測(cè)其發(fā)生重組的概率依然是一項(xiàng)相當(dāng)具有挑戰(zhàn)性的工作。我們建立了一個(gè)隨機(jī)森林分類模型,來(lái)預(yù)測(cè)酵母基因組中的重組冷熱點(diǎn)。為了把模型應(yīng)用于全基因組,我們提出了一個(gè)獨(dú)立于開放閱讀框的特征:帶間隔的二聯(lián)堿基豐度。我們用相同的
3、序列特征又建立了一個(gè)支持向最機(jī)模型來(lái)和隨機(jī)森林模型進(jìn)行比較,發(fā)現(xiàn)利用隨機(jī)森林構(gòu)造的模型在預(yù)測(cè)的特異性和敏感性上均優(yōu)于利用支持向量機(jī)構(gòu)造的模型。然后我們又開發(fā)了重組冷熱點(diǎn)在線預(yù)測(cè)系統(tǒng):RF.DYMHC(http://www.bioinf.seu.edu.cn/RecombinationD。用戶提交酵母的DNA序列和運(yùn)算參數(shù)(預(yù)測(cè)可靠性指數(shù)閾值和非霞疊掃描窗u的大小),在線系統(tǒng)將反饋給用戶預(yù)測(cè)到的重組冷熱點(diǎn),并將它們用不同顏色標(biāo)記出來(lái)。(2)我們開發(fā)了全基因組DNA重組率數(shù)據(jù)庫(kù):ReDB(Recombinati
4、onratedatabase),ReDB日前存儲(chǔ)了六個(gè)物種的全摹州組重組率數(shù)據(jù):人(Human),人鼠(rat),小鼠(mouse),果蠅(D.melanogaster),線蟲(C.elegans)希;酵母(yeast)。ReDB的剛址足:http://www.bioinf.seu.edu.cn/Redatabase/。用戶可以通過(guò)不同的方式查詢數(shù)據(jù)庫(kù),例如可以通過(guò)染色體坐標(biāo),DNA片斷的重組牢的相對(duì)重組率(therecombinationrates)或在全基因組上的重組率排名(therankingofth
5、erecombinationrates)等等。數(shù)據(jù)庫(kù)存儲(chǔ)了每條序列的不同細(xì)節(jié)信息,例如序列所在的染色體坐標(biāo),與這條序列重組率相應(yīng)參考文獻(xiàn)的超鏈接,以FAST#.格式的這條序列的序列信息等等。用戶查詢到的序列可以以批量下載的方式進(jìn)行下載,這樣方便了用戶的存儲(chǔ)和對(duì)序列其它方面的操作。(3)我們建立了一個(gè)隨機(jī)森林回歸模型(RandomForestRegression,RFR),來(lái)定量的預(yù)測(cè)siRNA的降解效率,并用相同的特征建立了支持向量回口1機(jī)模型(SupportVectorRegression,SVR)與之相
6、比較,發(fā)現(xiàn)隨機(jī)森林刨歸模型(RFR)在定量頂測(cè)IV東南大學(xué)博士學(xué)位論文的能力上優(yōu)于支持向量回歸機(jī)(SVR)。和現(xiàn)有的打分矩陣方法進(jìn)行比較,發(fā)現(xiàn)我們的隨機(jī)森林回歸模型在篩選高效率的siRNAs上優(yōu)于這些打分矩陣算法。和其它的機(jī)器學(xué)習(xí)預(yù)測(cè)模型進(jìn)行比較,發(fā)現(xiàn)我們的方法優(yōu)于這些方法。為了方便分子生物學(xué)家設(shè)計(jì)siRNAs,我們開發(fā)了計(jì)算機(jī)輔助sil訃lAs在線設(shè)計(jì)系統(tǒng):RFRCDB—siRNAo它的網(wǎng)址是:http://www.bioinf.seu,edu.cn/siRNA/index.htm。RFRCDB.siRN
7、A與其它在線計(jì)算系統(tǒng)最大的差別在于RFRCDB.siRNA同時(shí)結(jié)合了siRNAs數(shù)據(jù)庫(kù)搜索和siRNA降解效率預(yù)測(cè)這兩個(gè)步驟。(4)我們結(jié)合了局域相鄰j聯(lián)結(jié)構(gòu)組成(10calcontiguoustripletstructurecomposition)特征,最小自由能特征和隨機(jī)化檢驗(yàn)特征(randomizationtest),建立了隨機(jī)森林分類模型來(lái)對(duì)具有莖環(huán)發(fā)夾結(jié)構(gòu)的序列進(jìn)行分類.從而區(qū)分哪些是真正的miRNA前體(realpre-miRNAs),哪些是假的miRNA前體(pseudopre.miRNAs)
8、。結(jié)果表明我們的方法在預(yù)測(cè)性能r顯著的超過(guò)了Triplet-SVM-classifier。為了進(jìn)一步研究到底是隨機(jī)森林算法的本身優(yōu)于支持向量機(jī)還是我們的特征優(yōu)于Triplet-SVM-classifier,我們用我們建立隨機(jī)森林相同的特征義建立了支持向量機(jī)模型,結(jié)果表明所建的這個(gè)分類器模型在性能上比我們的隨機(jī)森林模型性能要差,但分類效果又要比Triplet-SVM-classifier好,這說(shuō)明我們的隨機(jī)森林算法