資源描述:
《發(fā)掘多值屬性的關(guān)聯(lián)規(guī)則》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、發(fā)掘多值屬性的關(guān)聯(lián)規(guī)則張朝暉陸玉昌張 鈸(清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系北京100084)(清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室北京100084)摘要 屬性值可以取布爾量或多值量.從以布爾量描述的數(shù)據(jù)中發(fā)掘關(guān)聯(lián)規(guī)則已經(jīng)有比較成熟的系統(tǒng)和方法,而對(duì)于多值量則不然.將多值量的數(shù)據(jù)轉(zhuǎn)化為布爾型的數(shù)據(jù)是一條方便、有效的途徑.提出一種算法,根據(jù)數(shù)據(jù)本身的情況決定多值量的劃分,進(jìn)而將劃分后的區(qū)段映射為布爾量,在此基礎(chǔ)上可發(fā)掘容易理解且具有概括性的、有效的關(guān)聯(lián)規(guī)則.關(guān)鍵詞 數(shù)據(jù)采掘,關(guān)聯(lián)規(guī)則,聚類算法.中圖法分類號(hào) TP311當(dāng)今世界,數(shù)據(jù)每天都在迅猛地增長(zhǎng).據(jù)估計(jì),全世界的信息量每20個(gè)
2、月翻一番.人們保存如此大量的數(shù)據(jù),一是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展使之變得方便可行,二是因?yàn)檫@些數(shù)據(jù)有巨大的潛在作用.然而,如何有效地使用這些數(shù)據(jù)卻成為一個(gè)問題,因?yàn)槌3J菙?shù)據(jù)豐富而知識(shí)缺乏,利用當(dāng)前的數(shù)據(jù)庫(kù)技術(shù)并不能很好地發(fā)揮這些數(shù)據(jù)的作用.數(shù)據(jù)采掘(DataMining)是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)KDD(knowledgediscoveryindatabases)的核心,它為大量數(shù)據(jù)的利用提供了有效的工具.自從1989年第1屆KDD專題研討會(huì)舉辦以來,數(shù)據(jù)采掘的研究方興未艾.從1995年開始,每年舉辦一次的KDD國(guó)際會(huì)議,將KDD方面的研究推向了高潮.KDD可以定義如下[1]:從數(shù)據(jù)
3、中得出新的、有效的、有潛在用途的、可理解的模式的非平凡過程.關(guān)聯(lián)規(guī)則[2]是當(dāng)前數(shù)據(jù)采掘研究的主要模式之一,側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的聯(lián)系,找出滿足給定支持度和可信度閾值的多個(gè)域之間的依賴關(guān)系.下面是一個(gè)直觀的關(guān)聯(lián)規(guī)則的例子:在計(jì)算機(jī)配件商店中,70%的包含鍵盤的交易中包含鼠標(biāo),在所有交易中,有6%同時(shí)包含這兩種物品.規(guī)則表示為鍵盤鼠標(biāo)(可信度70%,支持度6%)關(guān)聯(lián)規(guī)則可以分為兩種:布爾型關(guān)聯(lián)規(guī)則和多值關(guān)聯(lián)規(guī)則.[3]許多文獻(xiàn)[2,5~8]都討論了發(fā)掘布爾型關(guān)聯(lián)規(guī)則問題[4]BARP(Booleanassociationrulesproblem),它可以看作是發(fā)掘
4、多值關(guān)聯(lián)規(guī)則問題QARP(quantitativeassociationrulesproblem)的基礎(chǔ)和特例,是在屬性值為布爾量的關(guān)系表中尋找屬性值為“1”的屬性之間的關(guān)系.多值屬性可分為數(shù)量屬性(QuantitativeAttribute),如年齡、價(jià)格等;類別屬性(CategoricalAttribute),如品牌、制造商等.QARP比較復(fù)雜,一種自然的想法是將它轉(zhuǎn)換為BARP.當(dāng)全部屬性的取值數(shù)量都是有限的時(shí)候,只需將每個(gè)屬性值映射為一個(gè)布爾型屬性即可.當(dāng)屬性的取值范圍很寬時(shí),則需將其分為若干區(qū)段,然后將每個(gè)區(qū)段映射為一個(gè)布爾型屬性.于是,如何劃分區(qū)段是實(shí)現(xiàn)QAR
5、P到BARP轉(zhuǎn)變的關(guān)鍵.這里面有兩個(gè)互相牽制的問題:當(dāng)區(qū)段的范圍太窄時(shí),則可能使每個(gè)區(qū)段對(duì)應(yīng)的屬性的支持度很低,而出現(xiàn)“最小支持度問題”;當(dāng)區(qū)段的范圍太寬時(shí),則可能使每個(gè)區(qū)段對(duì)應(yīng)的屬性的可信度很低,而出現(xiàn)“最小可信度問題”.一種簡(jiǎn)單直觀的方法是將屬性值區(qū)域相等地劃分成區(qū)段[3],但這種方法得出的劃分不能很好地表示數(shù)據(jù)的分布,特別是當(dāng)屬性值分布不均勻的時(shí)候.本文提出一種聚類算法,根據(jù)數(shù)據(jù)庫(kù)中數(shù)據(jù)的分布情況決定屬性值如何劃分區(qū)段,并可將相關(guān)的區(qū)段進(jìn)行合并.在此基礎(chǔ)上發(fā)掘得到的多值關(guān)聯(lián)規(guī)則可具有有效性和可理解性.1關(guān)聯(lián)規(guī)則從數(shù)據(jù)庫(kù)中發(fā)掘的規(guī)則可以有以下幾種:特征規(guī)則、區(qū)分規(guī)則、
6、聚類規(guī)則、關(guān)聯(lián)規(guī)則和進(jìn)化規(guī)則等.關(guān)聯(lián)規(guī)則是比較新的一種,由R.Agrawal于1993年提出.[2]令I(lǐng)={i1,i2,i3,...,im}為項(xiàng)的集合,D稱為交易的集合,D中每個(gè)交易T為項(xiàng)的集合,即TI.定義1.如果對(duì)于I中一些項(xiàng)的集合X有XT,則稱T包含X.定義2.一條關(guān)聯(lián)規(guī)則是如下形式的蘊(yùn)涵式XY,這里,XI,YI且X∩Y=void.規(guī)則XY在交易集合D中成立,如果D中有s%的交易包含X∪Y,且D中有c%的包含X的交易也包含Y.這里,s稱為支持度,c稱為可信度.定義3.發(fā)掘關(guān)聯(lián)規(guī)則問題就是在給定的交易集合D中產(chǎn)生所有滿足最小支持度(MinSupp)和最小
7、可信度(MinConf)的關(guān)聯(lián)規(guī)則的過程.發(fā)掘關(guān)聯(lián)規(guī)則問題可以分為兩個(gè)子問題.(1)尋找所有這樣的項(xiàng)的集合(Itemsets),它們的支持度超過用戶給定的最小支持度.這個(gè)項(xiàng)的集合稱為頻繁集(FrequentItemset).(2)應(yīng)用頻繁集產(chǎn)生規(guī)則.一般的想法是,如果ABCD和AB是頻繁集,那么,可以通過計(jì)算可信度conf=supp(ABCD)/supp(AB)來確定規(guī)則AB->CD是否成立.當(dāng)可信度conf≥最小可信度時(shí),規(guī)則成立.其中supp(X)表示X的支持度.隨著關(guān)聯(lián)規(guī)則越來越受到重視,許多算法和系統(tǒng)被相繼提出[3~7