資源描述:
《基于利潤分析的關聯(lián)規(guī)則挖掘研究》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、基于利潤分析的關聯(lián)規(guī)則挖掘研究 摘要:關聯(lián)規(guī)則是數(shù)據(jù)挖掘中的重要問題,有廣泛的用途。本文在關聯(lián)規(guī)則挖掘中引入了利潤和數(shù)量的約束條件,描述了具有利潤和數(shù)量約束的關聯(lián)規(guī)則問題,并給出了解決的方案?! £P鍵詞:利潤;夾擊算法;關聯(lián)規(guī)則 中圖分類號:TP311.13 除了基本Apriori算法[1-2],其他算法改進數(shù)據(jù)挖掘整體性能的方法,基本都集中在減少掃描數(shù)據(jù)的次數(shù)方面,并且這些算法基本都是單層次的關聯(lián)規(guī)則的挖掘算法。 但是,只有提供多層次的關聯(lián)規(guī)則,才能滿足讓用戶做不同的決策的需求。多層關聯(lián)規(guī)則挖掘算法與單層次關聯(lián)規(guī)則算法相比較,其得到的關
2、聯(lián)規(guī)則能夠表達的信息更豐富。但是這種關聯(lián)規(guī)則依然是商品間的簡單關系,并無涉及商品利潤和及其購買數(shù)量,本文用一種全新角度來分析關聯(lián)規(guī)則:即結合利潤和數(shù)量,使獲得的關聯(lián)規(guī)則不止是反映商品間的關系,還可以為決策者分析商品利潤率提供有用的知識。 1實驗準備 本文采用實驗的方式來驗證所提出的加入數(shù)量及利潤約束的多層次關聯(lián)規(guī)則挖掘算法,并對實驗結果進行分析。實驗過程可描述如下: 第一步:生成交易數(shù)據(jù)?! ≡O定待生成數(shù)據(jù)的參數(shù)以及交易數(shù)和數(shù)據(jù)格式。在此,本文采用《日照市某超市銷售管理系統(tǒng)》中部分商品的銷售數(shù)據(jù)為研究對象,鑒于數(shù)據(jù)規(guī)模較大,本文中實驗數(shù)據(jù)選
3、用了其中的10種商品項目,并分別以A、B、C、D、E、F、G、H、I、J代表。為了在分析挖掘出的關聯(lián)規(guī)則時使用利潤率這一指標,實驗數(shù)據(jù)中要包含商品的成本和單價?! 〉诙剑簩⑸唐讽椖窟M行歸納分類?! 〗⒁粋€多層次的架構,并且應用一般化識別編碼方式將數(shù)據(jù)編碼轉換?! 〉谌剑涸诙鄬哟渭軜嬛?,將夾擊算法套用于多層次結構上?! 〉谒牟剑簩ν诰虺龅年P聯(lián)規(guī)則,加入數(shù)量和利潤因素進行分析?! ?多層次關聯(lián)規(guī)則挖掘中套用夾擊算法[3] 首先,選取《日照市某超市銷售管理系統(tǒng)》中的部分交易數(shù)據(jù)建立起一個小型的交易庫。商品項目用A-J代號來表示,并且用層次化的樹
4、狀圖歸納分類,并利用一般化識別編碼表示,如下圖所示?! D1 如商品A對應的一般化識別編碼為“111”,其中第一個“1”是第一層的類別“食品”;第二個“1”指第二層的“糧食”類,第三個“1”則代表第三層中的具體商品A。其他項目以此類推。其次,在商品銷售表中隨機選取交易數(shù)據(jù)。對商品項目分層并編碼之后,交易數(shù)據(jù)具有了層次密集的性質。但是如果表示類別的層增加較多,產生的組合及候選項集長度也隨之增加,那么在挖掘頻繁項集時效率將降低。本文實驗中,利用夾擊算法,在最高類別層中挖掘出頻繁項集,用此頻繁項集與交易數(shù)據(jù)進行比較,如果商品項目符合該層次最小支持度,
5、就保留該商品項數(shù)據(jù),若不符合,則將該交易數(shù)據(jù)刪除。比之傳統(tǒng)的Apriori算法,減少了數(shù)據(jù)量,從而提高了算法的效率。 3以購買數(shù)量和利潤作為約束條件的關聯(lián)規(guī)則分析 通常情況下,數(shù)據(jù)挖掘得到的關聯(lián)規(guī)則,僅表征人們的一種購買趨勢,加入利潤約束后,也只能得出低利潤商品或者高利潤商品之間的關聯(lián)規(guī)則。無法得知商品的銷售數(shù)量,因此本文將交易數(shù)據(jù)中所購買商品的數(shù)量屬性也納入關聯(lián)規(guī)則挖掘的約束條件,并加上商品的利潤來分析在利潤和數(shù)量共同約束下關聯(lián)規(guī)則的意義?! ∩唐焚徺I數(shù)量,在實驗中,定義為對各種商品項目購買數(shù)量與交易筆數(shù)之比,即該商品購買數(shù)量的平均值?! ?/p>
6、購買數(shù)量可以由下例所示進行計算。例如,MA*PA→MA*PB+MC*PC,MA,MB,MC;代表A、B、C商品的購買數(shù)量;而PA、PB、PC則分別代表其利潤。下表為商品交易表中不含數(shù)量和含數(shù)量兩種不同的表示方式?! ”? 商品編號交易商品項(不含數(shù)量)交易商品項(含數(shù)量) 1ABCA2B2C1 2ABCA1B2C1 3ACA2C4 可以用以下的例子來說明,加入利潤和數(shù)量后挖掘出的關聯(lián)規(guī)則的意義?! 〖僭O有A、B、C三項商品,其單件商品利潤分別為1、6、3元。上表中的三項交易數(shù)據(jù)用{AABBC,ABBC,AACCC}表示,AABBC表示購
7、買了2個A商品,2個B商品,以及1個C商品。另外兩個數(shù)據(jù)項以此類同。假設對此三項數(shù)據(jù)應用夾擊算法,得出一條關聯(lián)規(guī)則A→B。該關聯(lián)規(guī)則并不包含商品的購買數(shù)量。現(xiàn)在我們把商品數(shù)量約束加入,按照上文所述,則A的數(shù)量應為:(2+1+2)/3=1.67;B的數(shù)量為(2+2+0)/3=1.33,C則為(1+1+4)/3=2。對于得到的關聯(lián)規(guī)則A→B,將購買數(shù)量以及利潤作為約束來分析關聯(lián)規(guī)則A→B,得到1.67*(A商品的利潤)→1.33*(B商品的利潤),原關聯(lián)規(guī)則變?yōu)椋?.67*1)→(1.33*7),因此得到3.34→7.98的結果。這樣由僅表示A、B商
8、品簡單相關的關聯(lián)規(guī)則,在加入商品購買數(shù)量及利潤后,可以表示此關聯(lián)規(guī)則能否帶來較高的獲利性,這樣,挖掘出的規(guī)則的價值大大提升,可以更好的提