資源描述:
《基于som神經(jīng)網(wǎng)絡(luò)的入侵早期檢測(cè)特征選擇》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、基于SOM神經(jīng)網(wǎng)絡(luò)的入侵早期檢測(cè)特征選擇 1引言 X絡(luò)入侵的早期特征是影響X絡(luò)入侵早期檢測(cè)效果的關(guān)鍵.面向X絡(luò)入侵檢測(cè)的特征選擇是對(duì)高維的入侵特征數(shù)據(jù)集進(jìn)行選擇,得到較低維度的、能夠反映入侵行為本質(zhì)的特征組合,以降低構(gòu)建入侵檢測(cè)模型的復(fù)雜度,提高入侵檢測(cè)率.基于神經(jīng)X絡(luò)的入侵檢測(cè)是智能化入侵檢測(cè)的重要技術(shù),它采用入侵特征數(shù)據(jù)集訓(xùn)練神經(jīng)X絡(luò)模型,利用神經(jīng)X絡(luò)模型進(jìn)行入侵檢測(cè).與傳統(tǒng)的入侵檢測(cè)技術(shù)相比,基于神經(jīng)X絡(luò)的入侵檢測(cè)具有良好的可拓展性及自適應(yīng)能力.然而,由于入侵行為的多樣化與復(fù)雜性,入侵特
2、征提取一直是基于神經(jīng)X絡(luò)的入侵檢測(cè)技術(shù)發(fā)展的瓶頸.現(xiàn)有的基于神經(jīng)X絡(luò)的入侵檢測(cè)研究絕大多數(shù)基于KDD99入侵特征數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).但基于KDD99的入侵檢測(cè)因受限于其復(fù)雜的預(yù)處理過(guò)程而無(wú)法實(shí)現(xiàn)在線檢測(cè),為此我們開(kāi)展了X絡(luò)入侵早期檢測(cè)方法研究[1],提出一組可支持在線實(shí)時(shí)提取的入侵早期行為特征,這組特征共計(jì)39維.基于這組早期特征,構(gòu)建基于SOM神經(jīng)X絡(luò)的入侵檢測(cè)模型,不僅實(shí)現(xiàn)了基于神經(jīng)X絡(luò)的在線入侵檢測(cè),而且能夠在入侵發(fā)生的早期(異常流的前N個(gè)包)實(shí)施檢測(cè).但是這組早期特征集的維數(shù)較多,建立入侵檢測(cè)
3、模型消耗的時(shí)間較大.同時(shí),冗余特征也會(huì)縮小入侵特征向量間的差別,從而影響入侵早期檢測(cè)的準(zhǔn)確率.本文以降低入侵檢測(cè)建模代價(jià)、提高入侵早期檢測(cè)率為目標(biāo),在基于SOM神經(jīng)X絡(luò)的入侵早期檢測(cè)研究的基礎(chǔ)上,進(jìn)一步開(kāi)展入侵早期特征選擇研究. 2相關(guān)工作 面向入侵檢測(cè)的特征選擇方法有兩種模式:filter模式和等人將遺傳算法與SVM結(jié)合,同時(shí)將遺傳算法運(yùn)用在特征選擇和SVM參數(shù)優(yōu)化中[7].基于遺傳算法與機(jī)器學(xué)習(xí)的al表示訓(xùn)練數(shù)據(jù)集中正常數(shù)據(jù)樣本數(shù);t表示訓(xùn)練數(shù)據(jù)集樣本總數(shù).3.2選擇、交叉與變異本文采
4、用二進(jìn)制編碼[11]方法將問(wèn)題的解映射為串,0代表不選擇該特征,1代表選擇該特征.每個(gè)串為一個(gè)個(gè)體,若干個(gè)體構(gòu)成一個(gè)種群.隨機(jī)產(chǎn)生N個(gè)二進(jìn)制串構(gòu)成一個(gè)初始種群.選擇是從當(dāng)前種群里依據(jù)概率挑選出優(yōu)秀個(gè)體作為父代將基因遺傳子代.為了保證優(yōu)質(zhì)個(gè)體不因概率選擇而流失,最優(yōu)個(gè)體不會(huì)因?yàn)檫x擇、交叉、變異操作而被破壞,本文采用帶有精英保留策略的輪盤(pán)賭選擇操作[12].將種群中最優(yōu)個(gè)體直接選入下一代,再進(jìn)行賭輪盤(pán)操作,選出n個(gè)父代個(gè)體.另外,采用單點(diǎn)交叉算子及單點(diǎn)變異算子進(jìn)行遺傳算法的交叉和變異操作.3.3頻率篩
5、選頻率篩選是依據(jù)單次遺傳算法優(yōu)化的最優(yōu)解中特征出現(xiàn)的頻率,重新組合得到最優(yōu)特征組合的過(guò)程.假設(shè)Y(y1,y2,,ym)表示多次運(yùn)行遺傳算法得到的最優(yōu)解集,yi表示第i個(gè)最優(yōu)解,m表示遺傳算法的運(yùn)行次數(shù),n表示原始特征集維度,按照遺傳算法的二進(jìn)制編碼規(guī)則:【3】 最后,選出Zj中所有為1的特征,得到最優(yōu)特征組合.對(duì)于公式(6)中頻率閾值Th的選擇需注意:頻率閾值過(guò)低,不能完全去除冗余特征;而頻率閾值過(guò)高,則會(huì)導(dǎo)致有用信息的丟失.頻率閾值可通過(guò)實(shí)驗(yàn)分析的方式獲?。 ?基于GAFS的特征選擇
6、算法描述 輸入:原始入侵早期特征數(shù)據(jù)集Data輸出:最優(yōu)特征組合(SF)參數(shù):group,重復(fù)運(yùn)行遺傳算法的次數(shù);N,初始種群大小;generation,最大計(jì)算代數(shù);q,交叉概率;p,變異概率;Th,頻率閾值;1:FORk=1:group2:SF←φ;3:生成初始種群SSNP(0);4:OptSF←GA(SSNP,generation,p,q){5:FORi=1:generation6:FORj=1:N7:生成訓(xùn)練數(shù)據(jù)集(Data,SSNP(i)j);8:生成測(cè)試數(shù)
7、據(jù)集(Data,SSNP(i)j);9:DR,F(xiàn)DR←SOM(訓(xùn)練數(shù)據(jù)集,測(cè)試數(shù)據(jù)集);10:fitnessj111:ENDFOR12:Best(SSNP(i),fitness);13:Select(SSNP(i),fitness,N);14:Crossover(SSNP(i),q);15:Mutation(SSNP(i),p);16:添加第i代最優(yōu)個(gè)體至SSNP(i+1);17:ENDFOR18:OptSF←最后一代種群SSNP(generation)的最優(yōu)個(gè)體;120:SF
8、←SF∪OptSF;21:ENDFOR22:SF←Sort(SF,Desc);23:SF←SF-頻率篩選(SF,頻率<Th);5實(shí)驗(yàn)及結(jié)果分析本文在基于神經(jīng)X絡(luò)模型的X絡(luò)入侵早期檢測(cè)研究[1,13-14]的基礎(chǔ)上,對(duì)入侵早期特征集進(jìn)行了特征選擇實(shí)驗(yàn),從已有研究確定的高維入侵早期特征集中提煉出更有效的優(yōu)化特征組合.原始入侵早期特征集共計(jì)39維:{Abytes,Bbytes,Apack-ets,Bpackets,meanApktl,meanBpkt