資源描述:
《基于索引數(shù)組的頻繁項集挖掘算法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第26卷第1期計算機(jī)應(yīng)用研究V01.26No.12009年1月ApplicationResearchofComputersJan.2009基于索引數(shù)組的頻繁項集挖掘算法張忠平,李巖,林志杰,王愛杰(燕山大學(xué)信息科學(xué)與工程學(xué)院計算機(jī)應(yīng)用技術(shù),河北秦皇島066004)摘要:基于現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘算法,提出了一種通過循環(huán)迭代增加項為項集后綴的方式產(chǎn)生所有項集的新方法,構(gòu)造了一種新的數(shù)據(jù)結(jié)構(gòu)一索引數(shù)組,存儲所發(fā)現(xiàn)的頻繁1一項集及其相關(guān)信息,以便快速發(fā)現(xiàn)項集與事務(wù)之間的關(guān)系;并提出了一種基于索引數(shù)組的頻繁項集挖掘新算法
2、。該算法只需掃描數(shù)據(jù)庫兩次就能發(fā)現(xiàn)所有頻繁項集。實驗結(jié)果表明,該算法可以有效提高頻繁項集的挖掘效率。關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;頻繁項集;索引數(shù)組中圖分類號:TP311文獻(xiàn)標(biāo)志碼:A文章編號:1001—3695(2009)01—0044—03FrequentitemsetsminingalgorithmbasedonindexarrayZHANGZhong—ping,LIYan,LINZhi-jie,WANGAi-jie(Dept.ofComputerApplicationTechnology,College
3、ofInformationScience&Engineering,Yat~hanUniversity,QinhuangdaoHebei066004China)Abstract:Thepaperpresentedanewapproachofincreasingitemtouuffixofitemsetrecursivelyaccordingtotheclassicalas—sociationruleminingalgorithms.Andusedanewdatastructure-indexarraytosto
4、refrequent1一itemsetanditscorrelativein—formation.Sotherelationsofitemsetsandtransactionswerefoundquickly.Presentedafrequentitemsetsminingalgorithmbasedonindexarrayandcouldmineallfrequentitemsetsthroughscanningdatabaseonlytwice.Theexperimentalresultsshowthat
5、theproposedalgorithmoutperformssimilarstate—of-the—artalgorithms.Keywords:datamining;associationrule;frequentitemsets;indexaray‘并利用了類似FP.growth的深度優(yōu)先的計算順序;缺點(diǎn)是要多0引言次執(zhí)行交集操作才能得到項集的支持度。目前大多數(shù)算法都是圍繞這三個算法改進(jìn),有的是從數(shù)據(jù)結(jié)構(gòu)上改進(jìn),如基于矩數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù)。隨著數(shù)陣的頻繁項集挖掘算法J、基于數(shù)組的頻
6、繁項集挖掘算法J、據(jù)在日常決策中的重要性越來越顯著,人們對數(shù)據(jù)處理技術(shù)的基于十字鏈表的頻繁項集挖掘算法等;有的是根據(jù)頻繁項要求也不斷提高,需要對數(shù)據(jù)進(jìn)行更深層次的處理,以便于對集的特性改進(jìn)?!挛锇l(fā)展趨勢的預(yù)測。因為數(shù)據(jù)的爆炸性增長,難以發(fā)現(xiàn)數(shù)據(jù)為減少頻繁項集產(chǎn)生的數(shù)量,近年來國內(nèi)外研究人員深入的全面信息,客觀上需要一種新的技術(shù)來分析海量的原始數(shù)研究了壓縮或近似的頻繁模式挖掘算法,不管是壓縮的頻據(jù),這樣,數(shù)據(jù)挖掘技術(shù)就應(yīng)運(yùn)而生了。繁模式還是近似的頻繁模式,都是頻繁模式的一部分,屬于頻關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域
7、的重要研究方向之一,屬于繁模式完全集的子集。當(dāng)不需要產(chǎn)生所有頻繁項集時,這種方描述性挖掘,它的目的就是挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,法十分有效,但是有損壓縮會丟失支持度信息,從而無法產(chǎn)生即從數(shù)據(jù)中挖掘出滿足一定條件的依賴性關(guān)系。1993年關(guān)聯(lián)規(guī)則。Agrawal等人提出了Apriori關(guān)聯(lián)規(guī)則挖掘算法,算法主要分為此,本文針對頻繁項集的完全集進(jìn)行了深入研究,應(yīng)用集為兩步:a)挖掘頻繁項集,使用逐層搜索的迭代方式從大量候合論和索引理論提出了一種基于索引數(shù)組的頻繁項集挖掘算法選項集中產(chǎn)生頻繁項集,即支持度大于等于
8、用戶預(yù)先給定的最(frequentitemsetsminingbasedonindexarray,F(xiàn)IMBIA)。該算法小支持度的項集;b)從a)步產(chǎn)生的頻繁項集中挖掘強(qiáng)關(guān)聯(lián)規(guī)只需掃描數(shù)據(jù)庫兩次,利用索引數(shù)組存儲發(fā)現(xiàn)的所有頻繁1一項則。關(guān)聯(lián)規(guī)則挖掘的核心問題是如何有效地挖掘頻繁項集。集及其相關(guān)信息,由頻繁1一項集構(gòu)成的所有項集按照一定的規(guī)2000年,HanJia—wei等人提出了不產(chǎn)生候選項集的FP