資源描述:
《數據挖掘中的關聯(lián)規(guī)則》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、關聯(lián)規(guī)則挖掘在商業(yè)銷售中的應用戚蕓(班級:數科院08(6)班學號:08213118)[摘要]數據挖掘是近些年企業(yè)界相當熱門的話題,它利用統(tǒng)計與人工智能的算法,從龐大的企業(yè)歷史資料中,找出隱藏的規(guī)律并簡歷準確的模型,用以預測未來。其中關聯(lián)規(guī)則的挖掘是數據挖掘的一個重要問題。[關鍵字]關聯(lián)規(guī)則支持度置信度增益一、關聯(lián)規(guī)則的概述關聯(lián)規(guī)則一般用以發(fā)現(xiàn)交易數據庫中不同商品(項)之間的聯(lián)系,用這些規(guī)則找出顧客的購買行為模式,比如購買了某一種商品對購買其他商品的影響,這種規(guī)則可以應用于超市商品貨架設計、貨物擺放以
2、及根據購買模式對用戶進行分類等。進而引伸至尋找一個變量間不同選擇之間的關系,或尋找不同變量間的關系。以交易數據為例描述關聯(lián)規(guī)則:給定一個交易集,該交易集包含一系列商品,則一條關聯(lián)規(guī)則可以表示為:X→Y二、關聯(lián)規(guī)則的分類(1)按關聯(lián)規(guī)則中處理變量的類別,可將關聯(lián)規(guī)則分為布爾型和數值型布爾型關聯(lián)規(guī)則中對應變量都是離散變量或類別變量,它顯示的是離散型變量間的關系,比如“買啤酒→買嬰兒尿布”;數值型關聯(lián)規(guī)則處理則可以與多維關聯(lián)或多層關聯(lián)規(guī)則相結合,處理數值型變量,如“月收入5000元→每月交通費約800元”
3、。(2)按關聯(lián)規(guī)則中數據的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則單層關聯(lián)規(guī)則中,所有變量都沒有考慮到現(xiàn)實的數據具有多個不同的層次;而多層關聯(lián)規(guī)則中,對數據的多層性已經進行了充分的考慮。比如“買夾克→買慢跑鞋”是一個細節(jié)數據上的單層關聯(lián)規(guī)則,而“買外套→慢跑鞋”是一個較高層次和細節(jié)層次間的多層關聯(lián)規(guī)則。(3)按關聯(lián)規(guī)則中涉及到的數據維數可以分為單維關聯(lián)規(guī)則和多維關聯(lián)規(guī)則單維關聯(lián)規(guī)則只涉及數據的一個維度(或一個變量),如用戶購買的物品;而多維關聯(lián)規(guī)則則要處理多維數據,涉及多個變量,也就是說,單維關
4、聯(lián)規(guī)則處理單一屬性中的關系,而多維關聯(lián)規(guī)則則處理多個屬性間的某些關系。比如“買啤酒→買嬰兒尿布”只涉及用戶購買的商品,屬于單維關聯(lián)規(guī)則,而“喜歡野外活動→購買慢跑鞋”涉及到兩個變量的信息,屬于二維關聯(lián)規(guī)則。三、關聯(lián)規(guī)則的作用關聯(lián)規(guī)則是數據挖掘中作用比較廣泛的知識之一,具體而言,關聯(lián)規(guī)則的作用可以表現(xiàn)在以下幾個方面:(1)交叉銷售,基于消費者購買模式,主動進行交叉銷售;(2)郵購目錄的設計,將經常會一起購買的東西置于郵購目錄較近的位置,促進銷售。(3)商品擺放,基于商店不同的經營理念,如果將會經常一起
5、購買的東西較近擺放,客戶會比較方便購買,如果有意放在購物通道的兩端,顧客尋找的過程中可以增加其他物品銷售的可能性;(4)流失客戶分析,可以分析是否是某些關鍵商品的缺失等;(5)基于購買模式進行客戶區(qū)隔。一、關聯(lián)規(guī)則的判斷標準做關聯(lián)規(guī)則分析之前,首先我們要明白,關聯(lián)規(guī)則是單向的。超市里我們可能發(fā)現(xiàn)“買啤酒則買嬰兒尿布”的關聯(lián)性很強,但“買嬰兒尿布就買啤酒”的關聯(lián)性卻很弱。關聯(lián)規(guī)則左右都可以是多種物品或特性的組合。任何兩個變量間都可能存在著潛在的關聯(lián),那么怎樣決定哪些關聯(lián)確實具有代表性,真的很有作用,哪
6、些關聯(lián)只是假象或者毫無用處呢?在考察關聯(lián)規(guī)則時,需要同時考慮三條獨立的標準,即支持度(support,也稱廣泛度,普遍度。下文以sup(.)表示括號內關聯(lián)規(guī)則的支持度)、置信度(confidence,也稱預測度。下文以con(.)表示)和增益(lift,下文以lif(.)表示)。表1是一個假設的購物籃數據庫中的一部分,我們以該數據為例說明關聯(lián)規(guī)則的三個標準。表1某體育用品店部分銷售數據(1)交易項目成交次數夾克球鞋300滑雪衫,球鞋100夾克,滑雪衫,球鞋100球鞋50慢跑鞋40夾克,慢跑鞋100滑
7、雪衫,慢跑鞋200襯衣10夾克40滑雪衫60合計10000 假設該商店運動鞋即由球鞋和慢跑鞋組成,上衣由襯衣與外套組成,而外套又包括夾克與滑雪衫兩種。將表1整理成交叉表形式如表2:表2某體育用品店部分銷售數據(2)運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X2140010040540滑雪衫X2220020060460單獨購買5040合計6503401000該表與一般交叉表有所不同,以球鞋一列為例,表中數據表示球鞋交易中與夾克一起交易的有400筆,與滑雪衫一起交易的
8、有200筆,單獨購買球鞋的有50筆,共650筆交易涉及到球鞋。其他各行與列的含義與此相同。總交易筆數1000并不等于邊緣交易筆數之和,因為其中還包括獨立交易,還有三個或以上交易項目一起達成的交易。以上述數據為例,可以發(fā)現(xiàn)挖掘出若干條關聯(lián)規(guī)則,比如:“夾克→球鞋(X21→Y11)”;“外套→慢跑鞋(X2→Y12)”;“運動鞋→滑雪衫(Y1→X22)”等等。關聯(lián)規(guī)則的支持度、置信度和增益的含義分別如下。(1)支持度sup(.)表示在購物籃分析中同時包含關聯(lián)規(guī)則左右兩邊物品