資源描述:
《基于改進(jìn)的和聲搜索算法的特征基因選擇方法-論文.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第33卷第1期河南科學(xué)Vo1.33No.12015年1月HENANSCIENCE文章編號(hào):1004—3918(2015)01—0058—07基于改進(jìn)的和聲搜索算法的特征基因選擇方法巍緩(陜西理工學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,陜西漢中723000)摘要:DNA微陣列數(shù)據(jù)通常含有成千上萬(wàn)個(gè)基因,其中含有大量與分類無(wú)關(guān)的基因和冗余基因,這些基因的存在會(huì)嚴(yán)重影響分類精度和效率.針對(duì)這一問(wèn)題,提出一種基于改進(jìn)的和聲搜索算法的特征基因選擇方法,首先采用ReliefF算法對(duì)微陣列基因數(shù)據(jù)集排序,取排序靠前的N個(gè)基因構(gòu)成初選基因子集,然后再利用改進(jìn)的和聲搜索算法選擇特征基因.通過(guò)在
2、3個(gè)公共微陣列數(shù)據(jù)集上的仿真實(shí)驗(yàn),結(jié)果表明,該算法能夠在更少的特征基因情況下達(dá)到很高的精度,是一種有效的特征基因選擇算法.關(guān)鍵詞:微陣列數(shù)據(jù);特征基因;ReliefF算法;聲搜索算法中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:AFeatureGeneSelectionMethodBasedonImprovedHarmonySearchAlgorithmWeiJun(SchoolofMathematics&ComputerScience,ShaanxiUniversityofTechnology,Hanzhong723000,ShaanxiChina)Abstract:DNA
3、microarraydataoftencontaintensofthousandsofgenes,wheretherearealotofirrelevantandredundantgenes.Thesegenesmayseriouslyaffecttheaccuracyandeficiencyofclassification.Inordertosolvethisproblem.Thispaperproposesafeaturegeneselectionmethodbasedonimprovedharmonysearchalgorithm.Firstly,micr
4、oarraygenesarerankedusingReliefFalgorithmandpreselectedgenesubsetisobtainedaccordingtoranked·topgenes,thentheimprovedharmonysearchalgorithmisusedtoselectfeaturegenesfromabovegenesubset.Finallyweimplementsimulationexperimentsonthreepublicmieroarraydatasets.Theresultsshowthatthepropose
5、dalgorithmcanachieveveryhighaccuracyinlessfeaturegenes,andisaeffectivefeaturegeneselectionalgorithm.Keywords:microarraydata;featuregene;ReliefFalgorithm;harmonysearchalgorithm基因芯片又稱為DNA微陣列(DNAmicroarray),作為一種先進(jìn)的、大規(guī)模、高通量檢測(cè)技術(shù),廣泛而成功地應(yīng)用于疾病診斷和治療、藥物篩選等許多領(lǐng)域,它將為人類疾病的診斷、治療和防治開(kāi)辟全新的途徑,為藥物開(kāi)發(fā)中先導(dǎo)化
6、合物的快速篩選和藥物基因組學(xué)研究提供技術(shù)支撐平臺(tái).微陣列數(shù)據(jù)集包含成千上萬(wàn)的基因,而基因樣本的數(shù)量往往不足一百.在這成千上萬(wàn)的基因中,大部分基因?qū)τ诎┌Y的分類沒(méi)有太大的貢獻(xiàn),僅有非常少量的基因與分類任務(wù)密切相關(guān),這些噪聲和冗余基因會(huì)嚴(yán)重影響分類的性能和效率.為了解決這個(gè)問(wèn)題,我們通過(guò)特征基因選擇,剔除與分類無(wú)關(guān)的、冗余的基因,從而降低臨床診斷的費(fèi)用,提高癌癥診斷的準(zhǔn)確性,并對(duì)疾病的預(yù)測(cè)提供可靠的依據(jù).目前,特征基因選擇方法主要有過(guò)濾法(Filter)與纏繞法(Wrapper)兩種。.過(guò)濾法通常采用某種策略來(lái)評(píng)估每個(gè)基因?qū)Ψ诸惾蝿?wù)的相關(guān)性,然后按照相關(guān)性的高低對(duì)基
7、因進(jìn)行排序,最后選擇排名靠前的N個(gè)基收稿日期:2014—05—29基金項(xiàng)目:國(guó)家自然科學(xué)基金(81160183,11305097);陜西省教育廳科學(xué)研究項(xiàng)目(14JK1132)作者簡(jiǎn)介:魏峻(1979一),男,實(shí)驗(yàn)師,碩士,主要研究方向?yàn)閿?shù)據(jù)挖掘.2015年1月魏峻:基于改進(jìn)的和聲搜索算法的特征基因選擇方法一59一因作為特征基因.常用的過(guò)濾法有“t~檢驗(yàn)”、“Fisher~標(biāo)”口、“ReliefF”n們以及“分類信息指數(shù)”口婦等,過(guò)濾法具有運(yùn)算效率高、易于實(shí)現(xiàn)的優(yōu)點(diǎn),但是它沒(méi)有考慮基因之間的相互作用,容易產(chǎn)生冗余基因.纏繞法通常采用分類算法對(duì)一個(gè)特征基因子集進(jìn)行
8、分類性能的評(píng)價(jià),然后根據(jù)