資源描述:
《基于遺傳優(yōu)化獲取微陣列最佳分類規(guī)則》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。
1、基于遺傳優(yōu)化獲取微陣列最佳分類規(guī)則遺傳編程(GP)提出一種最優(yōu)規(guī)則遺傳算法(BRGA)對分類規(guī)則進行優(yōu)化的方法,獲取最佳分類規(guī)則集,此算法可以調整分類器模型的相關參數(shù),在適當增加迭代基礎上大幅提高分類的精確度,具有相當?shù)撵`活性和可理解性.利用6個基因數(shù)據集檢驗了算法的性能.仿真結果表明,本文提出的算法與其他文獻的方法相比,在具有較高分類精確度和穩(wěn)定性前提下大幅降低了計算復雜度及冗余. 關鍵詞:最優(yōu)規(guī)則遺傳算法;微陣列;遺傳編程;分類規(guī)則;計算復雜度 ?。篢P391:A 生物醫(yī)學研究表明,人類大多數(shù)疾
2、病的發(fā)病機制,比如癌癥,從根本上來說都和基因息息相關.微陣列數(shù)據是將樣本實驗形成的影像轉為基因表達矩陣,矩陣行表示基因,列表示類別樣本,矩陣中的元素描述不同基因在不同樣本的表達水平. 由于微陣列芯片技術[1]獲得的基因數(shù)據數(shù)量遠大于樣本數(shù)量,隨著維數(shù)的增加,最大的障礙則是在高維特征空間運算時存在的“維數(shù)災難”.微陣列大量基因數(shù)據僅為樣本分類提供了少數(shù)有分類意義的、具有明顯特征的基因.因此,在樣本分類之前,選擇特征基因是至關重要的,這直接影響到之后生成的分類器性能.微陣列分類作為生物指標的探索成為生物信
3、息學一個重要的課題,事實上,由于存在更多的癌癥類型和潛在的癌癥子類,如果展開腫瘤分類問題到多重腫瘤類別,數(shù)據集包含更多的類別和非常少量的樣本,問題將變得更具有挑戰(zhàn)性. 一些研究報告指出,在基因選擇部分使用遺傳算法能改進微陣列數(shù)據的分類性能[1-2],因此,遺傳算法已廣泛用于解決包括數(shù)據分類的各種難題[3-4].本文提出一種最優(yōu)規(guī)則遺傳算法(BestRuleGeicAlgorithm,BRGA),選用一種基于遺傳優(yōu)化的分類算法生成分類規(guī)則,用二進制向量表示分類規(guī)則,初始化規(guī)則集,設定相應的適應度及
4、初始種群的規(guī)模,通過變異產生一定數(shù)量的最優(yōu)分類規(guī)則.通過實驗,使用6個基因表達數(shù)據集來驗證算法的性能. 微陣列數(shù)據分類技術通常包含2部分內容:1)基因選擇;2)構建分類器模型.文獻[5]在基因選擇部分使用排列值計分RBS算法,很好地解釋了基因之間的相關性,大幅降低基因矩陣維度,在一定程度上減少了計算復雜性;在構建分類器部分提出了LCR方法,可以用很少的基因構造形成分類規(guī)則,提高了算法的可理解性.但分類規(guī)則的形成過程仍存在很多不足,如分類器模型中規(guī)則形成框架過于縝密,容易導致過擬合,產生龐大規(guī)則集的迭代過程相
5、當繁瑣,并產生大量冗余的規(guī)則,導致計算復雜度較高且算法收斂速度較低.分類器的構建則是整個技術的核心所在,傳統(tǒng)的微陣列分類方法有:加權投票()[8],費舍爾線性判別分析(LDA)[9],人工神經X絡(ANN)[10],遺傳規(guī)劃(GP)[11],最小二乘邏輯回歸[12]和樸素貝葉斯方法[13]等.由于它們僅僅聚焦于分類性能,而不能進一步提供任何醫(yī)學和生物學依據,導致這些分類算法往往產生僵硬的分類系統(tǒng),存在穩(wěn)定性弱和開銷大的特征,缺乏可擴展性.決策樹算法[14]和隨機森林算法
6、[15]基于決策規(guī)則產生分類器模型,此類算法獲得的分類規(guī)則在某種意義上包含了生物體基因之間的相關性,但如果訓練樣本存在小的差異會導致決策樹結構產生大的變化,致使分類器缺乏穩(wěn)定性,這些分類方法仍然存在很大的局限性. 1BRGA方法的基本思想 BRGA算法是在遺傳優(yōu)化的基礎上,將分類規(guī)則集作為種群,使用二進制串表示其中任意一條分類規(guī)則,計算對應于基因屬性的比較關系的分類規(guī)則適應度值,經過若干代的繁殖過程,包括選擇、交叉和變異運算,反復迭代優(yōu)化,獲取具有較高適應度的最佳分類規(guī)則. 4結論 本文提出的
7、BRGA算法很好地解決了用微陣列基因表達值構建分類決策規(guī)則普遍速度慢的難題,通過調整適合規(guī)則的適應度值及相關參數(shù)對初始規(guī)則集進行優(yōu)化,該算法能很快收斂于最優(yōu)分類規(guī)則集.采用6個數(shù)據集驗證了該算法的性能,實驗結果表明,BRGA算法具有較高的精確度和極少的分類運算耗時(CPUtime).當然,由于實驗條件和生物學發(fā)展的局限性,該算法有待進一步提高和完善. 遺傳編程(GP)提出一種最優(yōu)規(guī)則遺傳算法(BRGA)對分類規(guī)則進行優(yōu)化的方法,獲取最佳分類規(guī)則集,此算法可以調整分類器模型的相關參數(shù),在適當增加迭代基礎上大
8、幅提高分類的精確度,具有相當?shù)撵`活性和可理解性.利用6個基因數(shù)據集檢驗了算法的性能.仿真結果表明,本文提出的算法與其他文獻的方法相比,在具有較高分類精確度和穩(wěn)定性前提下大幅降低了計算復雜度及冗余. 關鍵詞:最優(yōu)規(guī)則遺傳算法;微陣列;遺傳編程;分類規(guī)則;計算復雜度 :TP391:A 生物醫(yī)學研究表明,人類大多數(shù)疾病的發(fā)病機制,比如癌癥,從根本上來說都和基因息息相關.微陣列數(shù)