資源描述:
《基于遺傳優(yōu)化獲取微陣列最佳分類規(guī)則》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、基于遺傳優(yōu)化獲取微陣列最佳分類規(guī)則遺傳編程(GP)提出一種最優(yōu)規(guī)則遺傳算法(BRGA)對(duì)分類規(guī)則進(jìn)行優(yōu)化的方法,獲取最佳分類規(guī)則集,此算法可以調(diào)整分類器模型的相關(guān)參數(shù),在適當(dāng)增加迭代基礎(chǔ)上大幅提高分類的精確度,具有相當(dāng)?shù)撵`活性和可理解性.利用6個(gè)基因數(shù)據(jù)集檢驗(yàn)了算法的性能.仿真結(jié)果表明,本文提出的算法與其他文獻(xiàn)的方法相比,在具有較高分類精確度和穩(wěn)定性前提下大幅降低了計(jì)算復(fù)雜度及冗余. 關(guān)鍵詞:最優(yōu)規(guī)則遺傳算法;微陣列;遺傳編程;分類規(guī)則;計(jì)算復(fù)雜度 :TP391:A 生物醫(yī)學(xué)研究表明,人類大多數(shù)疾
2、病的發(fā)病機(jī)制,比如癌癥,從根本上來說都和基因息息相關(guān).微陣列數(shù)據(jù)是將樣本實(shí)驗(yàn)形成的影像轉(zhuǎn)為基因表達(dá)矩陣,矩陣行表示基因,列表示類別樣本,矩陣中的元素描述不同基因在不同樣本的表達(dá)水平. 由于微陣列芯片技術(shù)[1]獲得的基因數(shù)據(jù)數(shù)量遠(yuǎn)大于樣本數(shù)量,隨著維數(shù)的增加,最大的障礙則是在高維特征空間運(yùn)算時(shí)存在的“維數(shù)災(zāi)難”.微陣列大量基因數(shù)據(jù)僅為樣本分類提供了少數(shù)有分類意義的、具有明顯特征的基因.因此,在樣本分類之前,選擇特征基因是至關(guān)重要的,這直接影響到之后生成的分類器性能.微陣列分類作為生物指標(biāo)的探索成為生物信
3、息學(xué)一個(gè)重要的課題,事實(shí)上,由于存在更多的癌癥類型和潛在的癌癥子類,如果展開腫瘤分類問題到多重腫瘤類別,數(shù)據(jù)集包含更多的類別和非常少量的樣本,問題將變得更具有挑戰(zhàn)性. 一些研究報(bào)告指出,在基因選擇部分使用遺傳算法能改進(jìn)微陣列數(shù)據(jù)的分類性能[1-2],因此,遺傳算法已廣泛用于解決包括數(shù)據(jù)分類的各種難題[3-4].本文提出一種最優(yōu)規(guī)則遺傳算法(BestRuleGeicAlgorithm,BRGA),選用一種基于遺傳優(yōu)化的分類算法生成分類規(guī)則,用二進(jìn)制向量表示分類規(guī)則,初始化規(guī)則集,設(shè)定相應(yīng)的適應(yīng)度及
4、初始種群的規(guī)模,通過變異產(chǎn)生一定數(shù)量的最優(yōu)分類規(guī)則.通過實(shí)驗(yàn),使用6個(gè)基因表達(dá)數(shù)據(jù)集來驗(yàn)證算法的性能. 微陣列數(shù)據(jù)分類技術(shù)通常包含2部分內(nèi)容:1)基因選擇;2)構(gòu)建分類器模型.文獻(xiàn)[5]在基因選擇部分使用排列值計(jì)分RBS算法,很好地解釋了基因之間的相關(guān)性,大幅降低基因矩陣維度,在一定程度上減少了計(jì)算復(fù)雜性;在構(gòu)建分類器部分提出了LCR方法,可以用很少的基因構(gòu)造形成分類規(guī)則,提高了算法的可理解性.但分類規(guī)則的形成過程仍存在很多不足,如分類器模型中規(guī)則形成框架過于縝密,容易導(dǎo)致過擬合,產(chǎn)生龐大規(guī)則集的迭代過程相
5、當(dāng)繁瑣,并產(chǎn)生大量冗余的規(guī)則,導(dǎo)致計(jì)算復(fù)雜度較高且算法收斂速度較低.分類器的構(gòu)建則是整個(gè)技術(shù)的核心所在,傳統(tǒng)的微陣列分類方法有:加權(quán)投票()[8],費(fèi)舍爾線性判別分析(LDA)[9],人工神經(jīng)X絡(luò)(ANN)[10],遺傳規(guī)劃(GP)[11],最小二乘邏輯回歸[12]和樸素貝葉斯方法[13]等.由于它們僅僅聚焦于分類性能,而不能進(jìn)一步提供任何醫(yī)學(xué)和生物學(xué)依據(jù),導(dǎo)致這些分類算法往往產(chǎn)生僵硬的分類系統(tǒng),存在穩(wěn)定性弱和開銷大的特征,缺乏可擴(kuò)展性.決策樹算法[14]和隨機(jī)森林算法
6、[15]基于決策規(guī)則產(chǎn)生分類器模型,此類算法獲得的分類規(guī)則在某種意義上包含了生物體基因之間的相關(guān)性,但如果訓(xùn)練樣本存在小的差異會(huì)導(dǎo)致決策樹結(jié)構(gòu)產(chǎn)生大的變化,致使分類器缺乏穩(wěn)定性,這些分類方法仍然存在很大的局限性. 1BRGA方法的基本思想 BRGA算法是在遺傳優(yōu)化的基礎(chǔ)上,將分類規(guī)則集作為種群,使用二進(jìn)制串表示其中任意一條分類規(guī)則,計(jì)算對(duì)應(yīng)于基因?qū)傩缘谋容^關(guān)系的分類規(guī)則適應(yīng)度值,經(jīng)過若干代的繁殖過程,包括選擇、交叉和變異運(yùn)算,反復(fù)迭代優(yōu)化,獲取具有較高適應(yīng)度的最佳分類規(guī)則. 4結(jié)論 本文提出的
7、BRGA算法很好地解決了用微陣列基因表達(dá)值構(gòu)建分類決策規(guī)則普遍速度慢的難題,通過調(diào)整適合規(guī)則的適應(yīng)度值及相關(guān)參數(shù)對(duì)初始規(guī)則集進(jìn)行優(yōu)化,該算法能很快收斂于最優(yōu)分類規(guī)則集.采用6個(gè)數(shù)據(jù)集驗(yàn)證了該算法的性能,實(shí)驗(yàn)結(jié)果表明,BRGA算法具有較高的精確度和極少的分類運(yùn)算耗時(shí)(CPUtime).當(dāng)然,由于實(shí)驗(yàn)條件和生物學(xué)發(fā)展的局限性,該算法有待進(jìn)一步提高和完善. 遺傳編程(GP)提出一種最優(yōu)規(guī)則遺傳算法(BRGA)對(duì)分類規(guī)則進(jìn)行優(yōu)化的方法,獲取最佳分類規(guī)則集,此算法可以調(diào)整分類器模型的相關(guān)參數(shù),在適當(dāng)增加迭代基礎(chǔ)上大
8、幅提高分類的精確度,具有相當(dāng)?shù)撵`活性和可理解性.利用6個(gè)基因數(shù)據(jù)集檢驗(yàn)了算法的性能.仿真結(jié)果表明,本文提出的算法與其他文獻(xiàn)的方法相比,在具有較高分類精確度和穩(wěn)定性前提下大幅降低了計(jì)算復(fù)雜度及冗余. 關(guān)鍵詞:最優(yōu)規(guī)則遺傳算法;微陣列;遺傳編程;分類規(guī)則;計(jì)算復(fù)雜度 ?。篢P391:A 生物醫(yī)學(xué)研究表明,人類大多數(shù)疾病的發(fā)病機(jī)制,比如癌癥,從根本上來說都和基因息息相關(guān).微陣列數(shù)