資源描述:
《煙葉香氣風(fēng)格分類中的特征選擇算法研究.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、煙葉香氣風(fēng)格分類中的特征選擇算法研究煙葉香氣風(fēng)格分類中的特征選擇算法研究工程技術(shù)計(jì)算機(jī)光盤軟件與應(yīng)用ComputerCDSoftwareandApplications2010年第l4期煙葉香氣風(fēng)格分類中的特征選擇算法研究劉國強(qiáng),賀英,王偉(1.中國海洋大學(xué),山東青島266071;2.青島大學(xué),山東青島266071)摘要:煙葉香氣風(fēng)格分類是利用煙葉外觀質(zhì)量,理化成分判定其香型,香氣質(zhì)量的類別.為了提高分類能力,通過特征選擇發(fā)現(xiàn)最佳屬性集是一種有效的方法.本文對(duì)比研究了信息增益率(GainRatio),RehefF,CFS,Wra
2、pper四種特征選擇方法改善煙葉香氣分類器性能的差異.實(shí)驗(yàn)結(jié)果表明:基于遺傳算法的Wrapper方法優(yōu)于其他三種方法,所得最佳屬性集的特征維數(shù)低,而且使分類精確率大大提高.關(guān)鍵詞:特征選擇;分類;信息增益率;RelietF;CFS中圖分類號(hào):TP301.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007—9599(2010)14—0036—02TheFeatureSelectionAlgorithmResearchontheTobaccoLeafAromaStyleClassificationLiuGuoqiang',HeYing2,Wang
3、Wei'f1.ChinaOceanUniversity,Qingdao266071,China;2.QingdaoUniversity,Qingdao266071,China)Abstract:Theclassificationofthetobaccoaromaflavorisevaluatedaccordingtothetobaccophysicalandchemicalcompositions.InordertOimprovetheclassificationperformance,itisaneffectivemetho
4、dthatfmdthebestfeaturesetbasedonfeatureselection.Thediff-erenceoftheclassificationperformanceoftobaccoaromamodelisfoundbycomparingfourfeatureselectionmethods.suchasGain—Ratio.ReliefF,CFSandWrappermethods.TheexperimentresultshaveshownthattheWrappermethodbasedonthegen
5、eticalgori—thmiSsuperiortootherthreemethods.andthecharacterdimensioniSthelowest,SOitcangreatlyimprovedtheclassificationaccuracy.Keywords:Featureselecti0n:Classificati0n:InformationGainRatio;ReliefF;CFS一,引言煙葉的香氣風(fēng)格是人對(duì)煙葉的一種感官評(píng)價(jià),是受煙葉特定的生態(tài)條件,栽培技術(shù),遺傳因素等因素的影響.近年來,不少學(xué)者利用統(tǒng)計(jì)分
6、析,機(jī)器學(xué)習(xí)技術(shù)建立煙葉感官質(zhì)量評(píng)價(jià)模型11,2]試圖利用計(jì)算機(jī)建立一種快速評(píng)價(jià)煙葉香氣風(fēng)格的手段,有.助于實(shí)現(xiàn)卷煙配方數(shù)字化設(shè)計(jì).由于建立分類器的輸入屬性維數(shù)較多,其中存在一部分無關(guān)特征或冗余特征,導(dǎo)致分類器的精度和時(shí)間效率難以提高.一些學(xué)者試圖通過改進(jìn)一些分類算法來改善分類器性能,但效果并不明顯.特征選擇是機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)研究問題之一特征選擇是從原始特征集中按照評(píng)估標(biāo)準(zhǔn)選擇滿足最優(yōu)的特征子集"J.目前特征選擇已在文本分類,數(shù)據(jù)挖掘,基因工程,計(jì)算機(jī)視覺,信息檢索等領(lǐng)域中得到了廣泛應(yīng)用研究.本文研究了四種典型的特征選擇算法
7、:ReliefF,信息增益率(GainRatio),相關(guān)度量(CFS),Wrapper的基本原理,以及對(duì)分類器性能的改善能力,并應(yīng)用于煙葉香氣風(fēng)格分類問題.二,特征選擇特征選擇主要有四個(gè)步驟,首先按照一定的搜索策略產(chǎn)生候選特征子集,再通過某個(gè)評(píng)價(jià)函數(shù)評(píng)估特征子集的優(yōu)劣,然后根據(jù)預(yù)先指定的特征數(shù)目等條件決定特征選擇算法什么時(shí)候停止,最后驗(yàn)證最終所選的特征子集的有效性.Dash和Lju將特征選擇算法主要分為三類:Filter算法族,Wrapper算法族以及混合算法J.下面針對(duì)典型的特征選擇算法簡單介紹.(一)RiliefF算法Re
8、lief算法是由Kira提出的一種特征權(quán)重算法j.Kononenko提出了一種改進(jìn)的ReliefF算法,它能處理多類問題.對(duì)屬性的數(shù)據(jù)類型沒有要求,是一種比較有效的特征選擇算法I6】.算法的主要步驟如下:1.從訓(xùn)練集D中隨機(jī)選擇一個(gè)樣本R;2.從和R同類的樣本集中找出R的k個(gè)