資源描述:
《關(guān)聯(lián)規(guī)則的增量更新算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、關(guān)聯(lián)規(guī)則的增量更新算法研究(1)摘?要?隨著數(shù)據(jù)庫的不斷變化,關(guān)聯(lián)規(guī)則的增量更新變得尤為重要。為了漣更好的對關(guān)聯(lián)規(guī)則進(jìn)行有效的更新,本文輻對已經(jīng)提出的經(jīng)典的關(guān)聯(lián)規(guī)則更新算法FィUP和IUA算法進(jìn)行分析,指出其優(yōu)缺瀹點;最后對另外的改進(jìn)算法,做一個簡單迫的敘述。關(guān)鍵詞?數(shù)據(jù)庫;關(guān)聯(lián)規(guī)則;增ヰ量更新?關(guān)聯(lián)規(guī)則反映了數(shù)據(jù)庫中數(shù)據(jù)項遣目之間有趣的關(guān)聯(lián)關(guān)系,而其中發(fā)現(xiàn)頻繁ね項目集是關(guān)聯(lián)規(guī)則挖掘應(yīng)用中的關(guān)鍵技術(shù)谫和步驟。關(guān)于頻繁項目集的挖掘算法研究腱,人們對此進(jìn)行了大量的工作,其中以R.Agrawal等人提出的Apr
2、iori、AprioriTid等算法最具靖有影響力和代表性。而這些算法的提出都驕?zhǔn)窃谕诰驍?shù)據(jù)庫和最小支持度不變的條件下進(jìn)行的。但實際中,遇到的情況可能是毹:隨著時間的推移,挖掘數(shù)據(jù)庫的規(guī)??蓮[能不斷膨脹或需要刪除一部分記錄,或者舞需要對最小支持度進(jìn)行調(diào)整從而逐步聚集填到我們感興趣的頻繁項目集上。因而如何若從數(shù)據(jù)發(fā)生變動后的數(shù)據(jù)庫中高效地對已木經(jīng)推導(dǎo)出的關(guān)聯(lián)規(guī)則進(jìn)行更新,具有非常亠重要的應(yīng)用價值,這就是所謂的增量式挖纓掘關(guān)聯(lián)規(guī)則的問題。1?關(guān)聯(lián)規(guī)則問題描嶼述:設(shè)I={i1,i2,...,im苧}是m個不同
3、項目的集合,給定一個事務(wù)︼數(shù)據(jù)庫D,其中D每一個事務(wù)T是I中一︱組項目的集合,即TI,T有一個惟一的統(tǒng)標(biāo)志符TID。如果對于I中的一個子集欷X,有XT,我們就說一個事務(wù)T包含Xサ。一條關(guān)聯(lián)規(guī)則(associatio13/13捫nrule)就是一個形如X=>Y的蘊涵式,其中X,YT,而X∩Y=Φ。關(guān)鐙聯(lián)規(guī)則成立的條件是:①它具有最小支持鬣度s,即事務(wù)數(shù)據(jù)庫D中至少有s%的事彤務(wù)包含X∪Y;②它具有最小可信度c,齡即在事務(wù)數(shù)據(jù)庫D中包含X的事務(wù)中至少有c%同時也包含Y。給定一個事務(wù)集DЪ,挖掘關(guān)聯(lián)規(guī)則問題就
4、是產(chǎn)生支持度和可皋信度分別大于用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則,也就是產(chǎn)生強規(guī)則菜的問題。關(guān)聯(lián)規(guī)則的挖掘問題可以分解為搬以下兩個問題:(1)找出事務(wù)數(shù)據(jù)庫中妝所有具有用戶最小支持度的項目集。具有婦用戶指定最小支持度的項目集稱為頻繁項鄒目集,反之稱為非頻繁項目集。一個項目中所含項目的個數(shù)稱為該項目的長度。(蠢2)利用頻繁項目集生成關(guān)聯(lián)規(guī)則。對于睇每一個頻繁項目集A,若BA,B≠Φ,恚且support(A)/suppor入t(B)>minconf,則有關(guān)聯(lián)規(guī)郫則B=>(A-B)。目前大多數(shù)的研究
5、主要集中在第一個問題上面。2?Apr澍iori核心算法[1]Agrawal唼等人于1994年提出了一個挖掘顧客交炫易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則的重要方法熠Apriori算法,其核心是基于兩個庖階段頻繁項集思想的遞推算法。算法的基命本思想是首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度魂一樣。然后由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則,嫌這些規(guī)則必須滿足最小支持度和最小可信年度。Apriori核心算法思想簡要描Ё述如下:該算法中有兩個關(guān)鍵步驟連接步噔和剪枝步。(1)連接步:為找出Lk(竦13/13頻繁k一
6、項集),通過Lk-1與自身連郡接,產(chǎn)生候選k-項集,該候選項集記作圊Ck;其中Lk-1的元素是可連接的。氌(2)剪枝步:Ck是Lk的超集,即它佃的成員可以是也可以不是頻繁的,但所有析的頻繁一項集都包含在Ck中。掃描數(shù)據(jù)綣庫,確定Ck中每一個候選的計數(shù),從而﹂確定Lk(計數(shù)值不小于最小支持度計數(shù)遁的所有候選是頻繁的,從而屬于Lk)。芒然而,Ck可能很大,這樣所涉及的計算狼量就很大。為壓縮Ck,使用Aprio弧ri性質(zhì):任何非頻繁的(k-1)-項顆集都不可能是頻繁k-項集的子集。因此棘,如果一個候選k-項集的(
7、k-1)項孤集不在Lk中,則該候選項也不可能是頻ɑ繁的,從而可以由Ck中刪除。這種子集瞳測試可以使用所有頻繁項集的散列樹快速搞完成。這個方法要求多次掃描可能很大的縈交易數(shù)據(jù)庫,即如果頻集最多包含10個眥項,那么就需要掃描交易數(shù)據(jù)庫10遍,黍這需要很大的I/O負(fù)載。可能產(chǎn)生大量錒的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫輞,是Apriori算法的兩大缺點。3釓?關(guān)聯(lián)規(guī)則增量更新關(guān)聯(lián)規(guī)則反映了數(shù)據(jù)庫中數(shù)據(jù)項目之間有趣的關(guān)聯(lián)關(guān)系,而其顴中發(fā)現(xiàn)頻繁項目集是關(guān)聯(lián)規(guī)則挖掘應(yīng)用中嘉的關(guān)鍵技術(shù)和步驟。關(guān)于頻繁項目集的挖х掘算法
8、研究,人們對此進(jìn)行了大量的工作次,其中以R.Agrawal等人提出的蘑Apriori、AprioriTid等算法最具有影響力和代表性。而這些算法的提出都是在挖掘數(shù)據(jù)庫和最小支持度兕不變的條件下進(jìn)行的。實際中,數(shù)據(jù)庫的獅規(guī)模隨著時間,可能不斷膨脹或需要刪除循13/13一部分記錄,或者需要對最小支持度進(jìn)行お調(diào)整從而逐步聚集到我們感興趣的頻繁項氐目集上。因而如何高效地從更新后的數(shù)據(jù)鰣庫中對已經(jīng)推導(dǎo)出的關(guān)聯(lián)規(guī)則進(jìn)行更