資源描述:
《一種關(guān)聯(lián)規(guī)則增量式挖掘算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、一種關(guān)聯(lián)規(guī)則增量式挖掘算法研究摘要:現(xiàn)有關(guān)聯(lián)規(guī)則更新算法都是基于支持度-置信度框架而提出的,僅針對(duì)大于最小支持度閉值的頻繁項(xiàng)集進(jìn)行挖掘。為了提高告警關(guān)聯(lián)規(guī)則的完整性和準(zhǔn)確性,在相關(guān)度aarsc算法基礎(chǔ)上,提出了一種增量式挖掘uaarsc算法(updating-aarsc)。該算法對(duì)增量計(jì)算進(jìn)行了改進(jìn),可以發(fā)現(xiàn)頻繁和非頻繁告警序列間的關(guān)聯(lián)規(guī)則。關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)發(fā)掘;滑動(dòng)窗口;增量計(jì)算analgorithmofassociativeruleincrementminingliuzaoxin(departmentofinf
2、ormationengineering,jiangxiprofessionaltrainingcollegeoftransportation,nanchang,jiangxi330013,china)abstract:theexistingalgorithmsofassociationruleupdatearebasedontheframeworkofsupport-confidenceandtheymineonlythefrequentclosureofthesetvaluegreaterthantheminimums
3、upport.toenhancethecompletenessandaccuracy,theauthorpresentsinthispaperanincrementmininguaarscalgorithmbasedonthecorrelativeaarscalgorithm.thealgorithmimprovesincrementalcomputationandmayfindtheassociativerulesbetweenthefrequentandnon-frequentalarmsequences.keywo
4、rds:associativerules;datamining;slidingwindow;incrementalcomputation0引言數(shù)據(jù)挖掘是從大量、不完整、有噪聲的隨機(jī)數(shù)據(jù)中,提取隱含在其中、人們不知道但又潛在有用的信息和知識(shí)的過程。agrawal等人提出了挖掘關(guān)聯(lián)規(guī)則的一個(gè)重要方法—apriori算法[1]。為了挖掘具有時(shí)序特征的告警關(guān)聯(lián)規(guī)則問題,hatonen等在apriori算法基礎(chǔ)上提出了基于滑動(dòng)窗口的winepi算法[2],并在tasa(telecommunicationsalarmsequence
5、analyzer)系統(tǒng)中采用了該算法[3]。這些算法的處理過程一般分為兩個(gè)階段:⑴利用支持度發(fā)現(xiàn)頻繁告警序列;⑵利用置信度產(chǎn)生關(guān)聯(lián)規(guī)則。為了提高算法的效率、減少數(shù)據(jù)庫訪問次數(shù),避免在第一階段中生成大量候選項(xiàng)目集,han等人提出了基于fp樹生成頻繁項(xiàng)目集的fp-growth算法,該算法將頻繁項(xiàng)集壓縮保存在一棵fp-tree中,在一定程度上提高了頻繁項(xiàng)集的存取速度,從而提高了挖掘頻繁項(xiàng)目集的效率。以上算法都是在高支持度,高置信度的條件下,挖掘出告警關(guān)聯(lián)規(guī)則。但在挖掘電信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則時(shí),以高支持度和高置信度為條件的算法具有
6、一定局限性。如在分析某省電信網(wǎng)管告警數(shù)據(jù)庫連續(xù)6萬條告警記錄時(shí)發(fā)現(xiàn),該數(shù)據(jù)庫中共有1738個(gè)網(wǎng)元上報(bào)告警:其中1個(gè)網(wǎng)元上報(bào)8521次告警,1個(gè)網(wǎng)元上報(bào)4729次告警,14個(gè)網(wǎng)元上報(bào)告警次數(shù)在1000~2000之間,12個(gè)網(wǎng)元上報(bào)告警次數(shù)在500~1000之間,而上報(bào)告警次數(shù)小于100次的網(wǎng)元有1669個(gè),若在上述告警數(shù)據(jù)庫中采用apriori、winepi或fp-growth算法產(chǎn)生關(guān)聯(lián)規(guī)則,即使支持度設(shè)定為1%也只能發(fā)現(xiàn)28個(gè)網(wǎng)元之間的告警關(guān)聯(lián)關(guān)系,甚至設(shè)定為0.1%(己經(jīng)很低了)仍然無法發(fā)現(xiàn)告警次數(shù)小于100的166
7、9個(gè)網(wǎng)元之間的關(guān)聯(lián)關(guān)系。而這些非頻繁的告警序列之間也會(huì)存在一些關(guān)聯(lián)規(guī)則,這些告警間關(guān)聯(lián)規(guī)則在實(shí)際工作中對(duì)網(wǎng)管人員解決故障有很大的幫助。因此,挖掘在高置信度和低支持度(或者不考慮支持度)條件下的告警關(guān)聯(lián)規(guī)則具有重要的實(shí)際意義。在實(shí)際網(wǎng)絡(luò)中非頻繁告警的種類是巨大的,而且具有很強(qiáng)的隨機(jī)性,挖掘這些告警間的關(guān)聯(lián)規(guī)則,對(duì)于網(wǎng)絡(luò)管理具有很大的實(shí)際意義。本文在分析以高相關(guān)度、高置信度為條件,在基于相關(guān)度統(tǒng)計(jì)的告警關(guān)聯(lián)規(guī)則挖掘aarsc算法(alarmassociationrulesalgorithmbasedonstatistical
8、correlation)的基礎(chǔ)上,為了適應(yīng)告警數(shù)據(jù)動(dòng)態(tài)增加的特點(diǎn),提出了一種增量式挖掘uaarsc算法(updating-aarsc)。uaarsc算法可以發(fā)現(xiàn)頻繁和非頻繁告警序列間的關(guān)聯(lián)規(guī)則,從而提高了告警關(guān)聯(lián)規(guī)則的完整性和準(zhǔn)確性。1關(guān)聯(lián)規(guī)則的增量式更新算法目前關(guān)聯(lián)規(guī)則的更新算法,如fup算法[4]、fup2算法[