資源描述:
《最小冗余的無損關聯(lián)規(guī)則集表述》由會員上傳分享,免費在線閱讀,更多相關內容在應用文檔-天天文庫。
1、第34卷第12期自動化學報Vol.34,No.122008年12月ACTAAUTOMATICASINICADecember,2008最小冗余的無損關聯(lián)規(guī)則集表述陳茵1閃四清1劉魯1李巖1摘要傳統(tǒng)關聯(lián)規(guī)則挖掘得到的原始規(guī)則集包含大量的、雜亂的規(guī)則,其中很多是冗余的,這樣的規(guī)則集難以被用戶理解和應用.針對這一問題,探討了原始規(guī)則集與規(guī)則集表述之間的關系,提出了一個新的規(guī)則集表述模型.該模型包含一個利用概率統(tǒng)計原理構建的推演系統(tǒng),能夠從原始規(guī)則集中去除冗余規(guī)則,得到無損的規(guī)則集表述.這種規(guī)則集表述比原始規(guī)則集更簡潔、更易于
2、理解以及更便于用戶管理和應用.更重要的是,該模型得到的規(guī)則集表述是無損的,能夠實現(xiàn)原始規(guī)則集和規(guī)則集表述之間的相互推演,保證了信息的完整性.在四個著名數(shù)據(jù)集上進行的實驗表明,規(guī)則集表述中的規(guī)則數(shù)量顯著減少.關鍵詞關聯(lián)規(guī)則,冗余規(guī)則,規(guī)則集表述,無損性中圖分類號TP311.13Minimum-redundantandLosslessAssociationRule-setRepresentation1111CHENYinSHANSi-QingLIULuLIYanAbstractThereareexcessiveandun
3、orderlyrulesproducedbytraditionalassociationrulemining,manyofwhichareredundant.Itisdi±cultforuserstounderstandanduse.Tosolvethisproblem,therelationshipbetweentheoriginalrule-setandtherule-setrepresentationwasdiscussedandanewmodelwasrepresented.Thenewmodelcontai
4、nedaninferencesystemestablishedwithstatisticstogetminimum-redundantandlosslessrule-setrepresentationbygettingridofredundantrules.Thisminimum-redundantandlosslessrules-setrepresentationismoreconcise,moreintelligible,andeasiertomanageanduse.Especially,therule-set
5、islosslesssothatitisabletoswitchtotheoriginalrule-set.Itissoimportantbecausetheswitchingkeepsthecompletenessofrule-setrepresentation.Experimentswithfourdatasetsshowthatthenumberofrulesintherule-setrepresentationisreducedgreatly.KeywordsAssociationrules,redundan
6、trules,rules-setrepresentation,lossless關聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要技術之一,在零規(guī)則r表示為X!Y,X稱作規(guī)則的前件(前提),售、保險、銀行等行業(yè)中得到了廣泛的運用.它最Y稱作規(guī)則的后件(結果).support(X!Y)稱早由Agrawal于1993年提出,目的是在交易數(shù)據(jù)為關聯(lián)規(guī)則X!Y的支持度,support(X!Y)庫中發(fā)現(xiàn)各項目之間的關系[1].設D是來自于交=support(X[Y).confidence(X!Y)稱為易數(shù)據(jù)庫的事務集,D=ft1;t2;¢¢¢;tng,事
7、務tk關聯(lián)規(guī)則X!Y的置信度,confidence(X!=fi1,i2,¢¢¢;ipg(p=1;2;¢¢¢;n),tk中的元素Y)=support(X!Y)=support(X)£100%.ij(j=1;2;¢¢¢;p)稱為項目(Item).設I=fi1,給定一個支持度閾值minsupport和一個置i2,¢¢¢;img是D中所有不同項目的集合,I的任信度閾值minconfidence,如果support(X!何非空子集X稱為D中的項集(Itemset).如果Y)?minsupport且confidence(X!Y)
8、?X中包含的項目個數(shù)為k,表示為kXk=k,則minconfidence,則稱X!Y為強規(guī)則.關聯(lián)規(guī)稱X是一個k項集.關聯(lián)規(guī)則挖掘通過兩個度則的任務是從交易數(shù)據(jù)庫中找到用戶感興趣的強規(guī)量,即支持度和置信度來得到.如果包含X的事則.務數(shù)為s,事務總數(shù)為d,定義項集X的支持度傳統(tǒng)的挖掘模型挖掘出來的規(guī)則往往是海量的,support(X)=s=d£1