資源描述:
《基于索引數(shù)組的頻繁項集挖掘算法》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第26卷第1期計算機應用研究V01.26No.12009年1月ApplicationResearchofComputersJan.2009基于索引數(shù)組的頻繁項集挖掘算法張忠平,李巖,林志杰,王愛杰(燕山大學信息科學與工程學院計算機應用技術,河北秦皇島066004)摘要:基于現(xiàn)有的關聯(lián)規(guī)則挖掘算法,提出了一種通過循環(huán)迭代增加項為項集后綴的方式產(chǎn)生所有項集的新方法,構造了一種新的數(shù)據(jù)結構一索引數(shù)組,存儲所發(fā)現(xiàn)的頻繁1一項集及其相關信息,以便快速發(fā)現(xiàn)項集與事務之間的關系;并提出了一種基于索引數(shù)組的頻繁項集挖掘新算法
2、。該算法只需掃描數(shù)據(jù)庫兩次就能發(fā)現(xiàn)所有頻繁項集。實驗結果表明,該算法可以有效提高頻繁項集的挖掘效率。關鍵詞:數(shù)據(jù)挖掘;關聯(lián)規(guī)則;頻繁項集;索引數(shù)組中圖分類號:TP311文獻標志碼:A文章編號:1001—3695(2009)01—0044—03FrequentitemsetsminingalgorithmbasedonindexarrayZHANGZhong—ping,LIYan,LINZhi-jie,WANGAi-jie(Dept.ofComputerApplicationTechnology,College
3、ofInformationScience&Engineering,Yat~hanUniversity,QinhuangdaoHebei066004China)Abstract:Thepaperpresentedanewapproachofincreasingitemtouuffixofitemsetrecursivelyaccordingtotheclassicalas—sociationruleminingalgorithms.Andusedanewdatastructure-indexarraytosto
4、refrequent1一itemsetanditscorrelativein—formation.Sotherelationsofitemsetsandtransactionswerefoundquickly.Presentedafrequentitemsetsminingalgorithmbasedonindexarrayandcouldmineallfrequentitemsetsthroughscanningdatabaseonlytwice.Theexperimentalresultsshowthat
5、theproposedalgorithmoutperformssimilarstate—of-the—artalgorithms.Keywords:datamining;associationrule;frequentitemsets;indexaray‘并利用了類似FP.growth的深度優(yōu)先的計算順序;缺點是要多0引言次執(zhí)行交集操作才能得到項集的支持度。目前大多數(shù)算法都是圍繞這三個算法改進,有的是從數(shù)據(jù)結構上改進,如基于矩數(shù)據(jù)庫技術的廣泛應用產(chǎn)生了大量的業(yè)務數(shù)據(jù)。隨著數(shù)陣的頻繁項集挖掘算法J、基于數(shù)組的頻
6、繁項集挖掘算法J、據(jù)在日常決策中的重要性越來越顯著,人們對數(shù)據(jù)處理技術的基于十字鏈表的頻繁項集挖掘算法等;有的是根據(jù)頻繁項要求也不斷提高,需要對數(shù)據(jù)進行更深層次的處理,以便于對集的特性改進。’事物發(fā)展趨勢的預測。因為數(shù)據(jù)的爆炸性增長,難以發(fā)現(xiàn)數(shù)據(jù)為減少頻繁項集產(chǎn)生的數(shù)量,近年來國內(nèi)外研究人員深入的全面信息,客觀上需要一種新的技術來分析海量的原始數(shù)研究了壓縮或近似的頻繁模式挖掘算法,不管是壓縮的頻據(jù),這樣,數(shù)據(jù)挖掘技術就應運而生了。繁模式還是近似的頻繁模式,都是頻繁模式的一部分,屬于頻關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領域
7、的重要研究方向之一,屬于繁模式完全集的子集。當不需要產(chǎn)生所有頻繁項集時,這種方描述性挖掘,它的目的就是挖掘出隱藏在數(shù)據(jù)間的相互關系,法十分有效,但是有損壓縮會丟失支持度信息,從而無法產(chǎn)生即從數(shù)據(jù)中挖掘出滿足一定條件的依賴性關系。1993年關聯(lián)規(guī)則。Agrawal等人提出了Apriori關聯(lián)規(guī)則挖掘算法,算法主要分為此,本文針對頻繁項集的完全集進行了深入研究,應用集為兩步:a)挖掘頻繁項集,使用逐層搜索的迭代方式從大量候合論和索引理論提出了一種基于索引數(shù)組的頻繁項集挖掘算法選項集中產(chǎn)生頻繁項集,即支持度大于等于
8、用戶預先給定的最(frequentitemsetsminingbasedonindexarray,F(xiàn)IMBIA)。該算法小支持度的項集;b)從a)步產(chǎn)生的頻繁項集中挖掘強關聯(lián)規(guī)只需掃描數(shù)據(jù)庫兩次,利用索引數(shù)組存儲發(fā)現(xiàn)的所有頻繁1一項則。關聯(lián)規(guī)則挖掘的核心問題是如何有效地挖掘頻繁項集。集及其相關信息,由頻繁1一項集構成的所有項集按照一定的規(guī)2000年,HanJia—wei等人提出了不產(chǎn)生候選項集的FP