資源描述:
《一種改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法在入侵檢測中的應(yīng)用研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、一種改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法在入侵檢測中的應(yīng)用研究張應(yīng)征成新紅(湖南工程職業(yè)技術(shù)學(xué)院湖南長沙410114)摘要:為了解決網(wǎng)絡(luò)入侵檢測領(lǐng)域使用Apriori算法挖掘頻繁模式效率不高、精度不夠的問題,本文引入自適應(yīng)步長躍進(jìn)、動態(tài)修剪候選頻繁項(xiàng)集的概念,提出一種新的改進(jìn)關(guān)聯(lián)規(guī)則挖掘算法,該算法較Apriori算法有比較明顯的優(yōu)勢,可以廣泛應(yīng)用于大規(guī)模入侵檢測數(shù)據(jù)庫的關(guān)聯(lián)規(guī)則挖掘中。關(guān)鍵詞:關(guān)聯(lián)規(guī)則;Apriori算法;入侵檢測中圖法分類號:TP391文獻(xiàn)標(biāo)識碼:AAnImprovedAlgorithmforMiningAssociationRulesinTheApplicat
2、ionofIntrusionDetectionZHANGYing-zheng,CHENGXin-hong(HuNanEngineeringPolytechnicHuNanChangSha410114)Abstract:InordertosolvethenetworkintrusiondetectionfielduseApriorialgorithmfrequentitemsetsefficiencyisnothigh,precisioninsufficientproblems,thisarticleintroducesadaptivestepjump,dynamicc
3、lipcandidatefrequentitemsetsconcept,putforwardanewalgorithmforminingassociationrulesalgorithm,theproposedalgorithmisApriorihasobviousadvantages,andcanbewidelyusedinlargedatabaseofintrusiondetectionofassociationrulemining.Keywords:associationrules;Apriorialgorithm;Intrusiondetection1引言關(guān)聯(lián)
4、規(guī)則挖掘是數(shù)據(jù)挖掘中一個重要的研究內(nèi)容,可以從海量數(shù)據(jù)中發(fā)現(xiàn)正常和異常的行為模式,將其應(yīng)用于入侵檢測不僅可以有效地檢測已知入侵,而且還具有檢測未知攻擊模式的能力,具有更高的準(zhǔn)確性和適應(yīng)性。因此研究關(guān)聯(lián)規(guī)則的高效挖掘算法對于提高入侵檢測的準(zhǔn)確性和時效性具有非常重要的意義。本文在分析經(jīng)典Apriori算法的基礎(chǔ)上,針對其存在的問題提出一種自適應(yīng)步長躍進(jìn)的改進(jìn)Apriori算法-I-Apriori算法。該算法引入自適應(yīng)步長躍進(jìn)、動態(tài)修剪候選頻繁項(xiàng)集的算法優(yōu)化技術(shù),解決了Apriori算法數(shù)據(jù)庫掃描次數(shù)過多、頻繁項(xiàng)長度增加時運(yùn)算時間顯著增加,產(chǎn)生候選集數(shù)目過大等問題能顯著提高
5、算法效率。其算法有較明顯的優(yōu)勢,可以廣泛應(yīng)用于入侵檢測數(shù)據(jù)庫的關(guān)聯(lián)規(guī)則挖掘中。2傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法定義1關(guān)聯(lián)規(guī)則:令I(lǐng)={i1,i2…,im}為項(xiàng)的集合(itemset),簡稱項(xiàng)集,D為事務(wù)數(shù)據(jù)庫,其中每個事務(wù)T是一個項(xiàng)目子集(TI),并具有一個惟一的標(biāo)識符TID。關(guān)聯(lián)規(guī)則是形如X=>Y的邏輯蘊(yùn)含式,其中XT,YT,且X∩Y=。定義2頻繁項(xiàng)集:包含k個項(xiàng)的項(xiàng)集稱為k項(xiàng)集。規(guī)定一個最小支持度min_sup為支持度閾值,如果項(xiàng)集的出現(xiàn)頻率大于等于min_sup,則稱該項(xiàng)集為頻繁項(xiàng)集(frequentitemset),簡稱頻集,頻繁k項(xiàng)集的集合記作Lk。以上就是傳統(tǒng)的A
6、priori算法,然而它存在以下三個不足:(1)需要重復(fù)地掃描數(shù)據(jù)庫。如果存在較長的頻繁項(xiàng)目集,則要重復(fù)掃描數(shù)據(jù)庫的次數(shù)就很多,對于入侵檢測數(shù)據(jù)庫的大量數(shù)據(jù)而言,該算法的時間復(fù)雜度是非常龐大的。(2)產(chǎn)生大量的候選項(xiàng)集,特別是候選2項(xiàng)集。如果有1000個頻繁1項(xiàng)集,那么該算法將會產(chǎn)生105數(shù)量級的候選2項(xiàng)集。(3)支持度計(jì)數(shù)的工作量很大。3改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法基于Apriori算法存在的問題,提出入侵檢測數(shù)據(jù)庫的改進(jìn)關(guān)聯(lián)規(guī)則挖掘算法—I-Apriori算法,其改進(jìn)的算法思想如下:3.1自適應(yīng)步長躍進(jìn)Apriori算法中,產(chǎn)生每個頻繁項(xiàng)集需要掃描一次數(shù)據(jù)庫。為了減少對
7、數(shù)據(jù)庫的掃描次數(shù),本算法是在己產(chǎn)生的Lk基礎(chǔ)上以hi為步長,通過連接、剪枝一次性產(chǎn)生新的以hi為步長的(k+j)-itemset(j=1,2…,hi)的候選頻繁集,然后再掃描數(shù)據(jù)庫,確定其中真正的頻繁項(xiàng)集,從而可以大大減少挖掘過程中的數(shù)據(jù)庫掃描時間,對于海量數(shù)據(jù)庫,效果尤為明顯。在步長h的選擇上采取了自適應(yīng)可變步長的確定方法,即h1=2,hi+1=2Iδ(i)hi,其中Iδ(i)用來表示步長的自適應(yīng)方向,即當(dāng)有頻繁項(xiàng)集產(chǎn)生時Iδ(i)=1,無頻繁項(xiàng)集產(chǎn)生時Iδ(i)=1/2hi。之所以將步長越設(shè)越大,是因?yàn)殡S著算法的進(jìn)行,頻繁k-itemset蘊(yùn)含的