資源描述:
《分布式關聯(lián)規(guī)則挖掘系統(tǒng)實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第8卷第24期2008年12月科學技術與工程Vol_8No.24Dec.20081671—1819(2008)24—6496—04ScienceTechnologyandEngineering⑥2008Sci.Tech.Engng.計算機技術分布式關聯(lián)規(guī)則挖掘系統(tǒng)實現(xiàn)鄒麗梁旭(大連交通大學軟件學院,大連116052)摘要提出一種基于AprTidRec算法的分布武關聯(lián)規(guī)則挖掘算法,并通過實驗驗證了算法運行的有效性。給出基于局部一全局通信模式的分布式關聯(lián)規(guī)則挖掘方案,并在此方案基礎之上進行了系統(tǒng)實現(xiàn)。關鍵詞數(shù)據(jù)挖掘關聯(lián)規(guī)則分布式支持度可信度中圖法分類號TP3
2、11.132.3;文獻標志碼A數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全定的事務數(shù)據(jù)庫D,其中的每個事務都對應一個唯的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在一的事務標識TID和一組項目集Itemsets(hemsets其中的、人們事先不知道的、但又是潛在有用信息,)。關聯(lián)規(guī)則是如下形式的一種蘊含:Y,其和知識的過程¨J。關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中非中Itemsets,YItemsets,且Xf3Y=。常重要的內(nèi)容,關聯(lián)規(guī)則通過量化的數(shù)字來描述一對關聯(lián)規(guī)則屬性的描述一般有兩個參數(shù):物品的出現(xiàn)對另一物品的出現(xiàn)有多大影響,它是1.1支持度一種簡單
3、但很實用的規(guī)則,可以用于對物品的存儲規(guī)則y的支持度定義為事務數(shù)據(jù)庫中同時規(guī)劃和貨物的擺放及追加銷售等商業(yè)決策行為進包含項目集和y的事務的百分數(shù)。行指導。1.2可信度當數(shù)據(jù)庫中存儲的數(shù)據(jù)的規(guī)模非常大時,采用規(guī)則l,的可信度定義為在包含項目集的分布式系統(tǒng)是進行關聯(lián)規(guī)則挖掘的一種解決方案。事務中,同時也包含項目集y的事務的百分數(shù)。隨著網(wǎng)絡技術的發(fā)展和分布式技術的發(fā)展,數(shù)據(jù)庫頻繁項目集:支持度不小于用戶給定的最小支存儲呈現(xiàn)出分布式的趨勢,這使得基于分布式系統(tǒng)持度的項目集稱為頻繁項目集。的關聯(lián)規(guī)則挖掘算法的研究顯得非常重要,而且具關聯(lián)規(guī)則的挖掘問題就是在給定數(shù)據(jù)庫
4、D中有廣闊地應用前景。分布式算法具有高度的適應找出具有用戶給定的最小支持度(minsup)和最小性、可伸縮性、低性能損耗和容易連接等特性,它可可信度(minconf)的關聯(lián)規(guī)則。以作為挖掘關聯(lián)規(guī)則的理想平臺。挖掘關聯(lián)規(guī)則的問題可以分解為兩個子問題:(1)找出存在于事務數(shù)據(jù)庫中的所有頻繁項1相關理論目集;(2)利用頻繁項目集生成關聯(lián)規(guī)則:對于每個假設,={,,,?,,}是一組物品集,對于給頻繁項目集,若r(x,l,≠(且規(guī)則y(X—Y)的可信度不小于用戶給定的最小可信度,則構(gòu)成關聯(lián)2008年8月27日收到規(guī)則(X—Y)。第一作者簡介:鄒麗(1980一),女
5、,山東龍口人,講師,研究方向其中第二個子問題比較簡單,易于實現(xiàn),而第數(shù)據(jù)挖掘及數(shù)據(jù)庫技術。E.mail:stu—zl@163.corn。一個子問題是關聯(lián)規(guī)則挖掘研究的重點,也是解決24期鄒麗,等:分布式關聯(lián)規(guī)則挖掘系統(tǒng)實現(xiàn)問題的關鍵。Begin假設某個事務數(shù)據(jù)庫D分布存儲在n個局部(1)Lk=(2)foralitemsetsI1∈Lk一1dobegin場地.s(1≤≤n),即D={D,,D,?,D},稱D為(3)forallitemsets∈Lk一1dobegin全局數(shù)據(jù)庫,D(1≤≤n)為局部數(shù)據(jù)庫。記lDl為(4)ifI1.iteml=I2.item
6、lAI1.itero22=I2.item2A??局部數(shù)據(jù)庫中的事務數(shù),lDl為全局數(shù)據(jù)庫中的事^I1.itemk一2=I2.itemk一2AI1.itemk一1<12.itemk一1:務數(shù)。對于某個項目集,,記,在D中的支持數(shù)為(5)thenLsup(i),在D中的支持數(shù)為,.sup。若,.sup(i)≥(6)beginII×minsup則稱,在場地Si為局部大頻繁項目(7)Ck.itemsets=I1.item1.I1.item2?I1.itcmk一1..itemk—l集,若LsupI>IDI×minsup則稱,為全局大頻繁項(8)Ck.tidRec=
7、I1.tidReen12.tidRee目集。(9)Ck.count=ICk.tidRecl定理:假設兒(k)是在場地S局部大的頻繁k(10)end項集,(k)是全局大頻繁k項集,則必有()(11)if(Ck.count≥lDI}minsup)thenn(12)Lk=Lku{Ck}兒(k)。證明參見文獻[3]。(13)end上述定理說明全局大頻繁項目集一定能從各(14)end個局部大頻繁項目集中得到。當數(shù)據(jù)庫具有很強End的分布性時,這種從各個局部大頻繁項目集中得到從算法的描述中不難看出,采用AprTidRec算候選全局大頻繁項目集的方法能大大縮減產(chǎn)生候法
8、求全局頻繁k項集的候選數(shù)據(jù)集時,僅需要掃描選項目集的數(shù)目。各局部數(shù)據(jù)庫一次(建立