資源描述:
《DNA模型(數(shù)學建模).ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、DNA序列的分類模型一、問題假定已知兩組人工已分類的DNA序列(20個已知類別的人工制造的序列),其中序列標號1—10為A類,11-20為B類。要求我們從中提取已經分類了的DNA序列片段的特征和構造分類方法,并且還要衡量所用分類方法的好壞,從而構造或選擇一種較好的分類方法。測試對象是20個未標明類別的人工序列(標號21—40)和182個自然DNA序列。例如A類:a1='aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgacc
2、gcttgg';b1='gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt';……三、建立分類模型主要有三種分類模型:統(tǒng)計分類模型距離判別、Fisher判別、Bayes判別等建立信息量函數(shù)(熵函數(shù))神經網絡模型二、特征提取序列中含有四個堿基a、g、t、c,反映該序列特征的方面主要有兩個:1、堿基的含量,反映了該序列的內容;統(tǒng)計a、g、t、c序列中分別出現(xiàn)的頻率;記序列中A、G、T、C的含量百分比為na、ng、
3、nt、nc,則得到一組表征該序列特征的四維向量。統(tǒng)計出的數(shù)據(jù)結構為:學習樣本A、B兩類分別為:12…10nangntnc欲判別類別的樣本Xi=(xi1,xi2,xi3,xi4),i=21,…,40;μA=(μA1μA2μA3μA4)μB=(μB1μB2μB3μB4)A類的幾何中心:B類的幾何中心:對于標號為i的序列,記它的特征向量為Xi=(na,ng,nt,nc)i。2、堿基的排序① 字符出現(xiàn)的周期性;② 統(tǒng)計三個字符出現(xiàn)的頻率;在遺傳學中每三個堿基的組合被稱為一個密碼子,如agg,att,gag等,共有43=64個。其數(shù)據(jù)結構:如何將64個密碼子減成幾個?經分析知,可以將6
4、4維的密碼子簡化為只有8維的密碼子。A類序列的特征密碼子:GGA,CGG,GGC,AGGB類序列的特征密碼子:TTA,TTT,ATT,TAT降維處理建立的準則是見表1模型一:構造辨析紙1、計算特征密碼子出現(xiàn)頻率八個密碼子:GGA,CGG,GGC,AGG,TTA,TTT,ATT,TAT,AB其數(shù)據(jù)結構為對20個人工DNA序列進行分類,準確率已經達到95%。對182個自然序列進行分類其準確率不高,必須采用其它方法進行分類。模型二:多維向量空間的判別分析模型如上圖所示,向量OA、OB分別代表了A、B兩類向量的重心位置。OC是任一個二維向量,與OA、OB成夾角α和β。當時,可斷定OC
5、屬于A類,否則,OC屬于B類。定義判別式:判斷準則如下:1)當W>0時,判斷向量OC屬于A類;2)當W<0時,判斷向量OC屬于B類;3)當W=0時,不能判斷;將2維向量推廣到64維向量,向量中的每個元素對應一個密碼子在這個片段中出現(xiàn)的頻率,第i個片段的向量表示為:而A、B兩類的重心向量分別為:由此可計算夾角余弦,從而計算判別函數(shù):思考:1、如何統(tǒng)計DNA序列片段中堿基a,g,t,c的頻率;編程實現(xiàn)。2、試分別用統(tǒng)計方法(歐氏距離、馬氏距離和Fisher判別)對人工或自然序列進行分類。3、DNA序列的特征提取其它方法。