資源描述:
《大型超市購物籃問題.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、.......模式識別期中作業(yè)--挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法——Apriori算法c.............一、問題重述作為超市的經(jīng)理,經(jīng)常關(guān)心的問題是顧客的購物習(xí)慣。他們想知道:“什么商品組或集合顧客多半會在一次購物時(shí)同時(shí)購買?”?,F(xiàn)在假設(shè)你們是某超市的市場分析員,已經(jīng)掌握了該超市近一個星期的所有顧客購買物品的清單和相應(yīng)商品的價(jià)格,需要你們給超市經(jīng)理一個合理的“購物籃”分析報(bào)告,并提供一個促銷計(jì)劃的初步方案。問題一:附件1中的表格數(shù)據(jù)顯示了該超市在一個星期內(nèi)的4717個顧客對999種商品的購買
2、記錄,對數(shù)據(jù)進(jìn)行分析,試建立一種數(shù)學(xué)模型,使該模型能定量表達(dá)超市中多種商品間的關(guān)聯(lián)關(guān)系的密切程度。問題二:根據(jù)問題1建立的模型,通過一種快速有效的方法從附件1中的購買記錄中分析出哪些商品是最頻繁被同時(shí)購買的,找到的最頻繁被同時(shí)購買的商品數(shù)量越多越好。問題三:附件2給出了這999中商品的對應(yīng)的利潤,根據(jù)在問題1、問題2中建立的模型,設(shè)定一種初步的促銷方案,使超市的效益進(jìn)一步增大。二、模型的假設(shè)1、假設(shè)各個商品的利潤保持不變。2、假設(shè)表格中的數(shù)據(jù)能真實(shí)地反映當(dāng)?shù)叵M(fèi)者的購物情況。3、假設(shè)短時(shí)間內(nèi)商品的銷售
3、情況維持穩(wěn)定,不會出現(xiàn)大幅波動。三、符號說明符號解釋說明si組合i的支持度c(A=>B)規(guī)則A=>B的置信度c(B=>A)規(guī)則B=>A的置信度ci組合i的平均置信度smin最小支持度cmin最小置信度μ關(guān)聯(lián)密切系數(shù)H促銷系數(shù)c.............四、問題分析本題是關(guān)于大型超市“購物籃”的分析問題,涉及到數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則等相關(guān)問題。本題的三個問題是層層遞進(jìn)的關(guān)系,要求通過對商品購買數(shù)據(jù)的分析,找到關(guān)聯(lián)程度較高且購買次數(shù)較高的商品,最后設(shè)計(jì)出合理的超市促銷方案。問題一,由于購物籃分析是關(guān)聯(lián)規(guī)則挖掘
4、的一個典型案例,因此我們采用一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法——Apriori算法。利用其基本思想,進(jìn)行了商品兩種之間的支持度和置信度計(jì)算,在定義最小支持度和最小置信度后,進(jìn)行篩選得到關(guān)聯(lián)規(guī)則集。為定量地表達(dá)超市中多種商品間的關(guān)聯(lián)關(guān)系的密切程度,本文引入一個關(guān)聯(lián)密切系數(shù)進(jìn)行衡量分別對12個組合求解平均置信度,進(jìn)而得到該組的關(guān)聯(lián)密切系數(shù)。由此認(rèn)為,關(guān)聯(lián)密切系數(shù)越大的商品組合,其關(guān)聯(lián)關(guān)系密切程度較高。問題二,在得到商品兩種關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)上,僅考慮商品支持度的大小,求得在一定最小支持度下被頻繁地
5、同時(shí)購買的商品組合。同時(shí)為使商品數(shù)量盡量多,我們在兩種組合的情況下延伸至三種組合,四種組合……以此得到盡可能多的商品被頻繁同時(shí)購買的信息,盡量靠近最頻繁被同時(shí)購買且商品數(shù)量越多的雙重目標(biāo)。問題三,在結(jié)合商品利潤的條件下,考慮兩種組合中各商品的利潤、支持度和置信度,分別計(jì)算出三者的乘積再求和,記為促銷系數(shù)H,并以此作為衡量此組合商品是否進(jìn)行促銷的標(biāo)準(zhǔn)。當(dāng)結(jié)果較高時(shí),我們就采取就近擺放、打折促銷、消費(fèi)送禮等捆綁銷售方式式得到一種促銷方案,在方便顧客的購買的同時(shí),增加消費(fèi)者對該超市的有好感和信任度,最終使得
6、超市的效益進(jìn)一步增大。五、模型的建立和求解模型一:基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘模型1.模型的準(zhǔn)備設(shè):I={i1,i2......,im}是所有項(xiàng)目的集合.D是所有事務(wù)的集合(即數(shù)據(jù)庫),每個事務(wù)T是一些項(xiàng)目的集合,T包含在D中,每個事務(wù)可以用唯一的標(biāo)識符TID來標(biāo)識.設(shè)X為某些項(xiàng)目的集合,如果X包含在T中,則稱事務(wù)T包含X,關(guān)聯(lián)規(guī)則則表示為如下形式(X包含在T)=>(Y包含在T)的蘊(yùn)涵式,這里X包含在I中,Y包含在I中,并且X∧Y=Φ.其意義在于一個事務(wù)中某些項(xiàng)的出現(xiàn),可推導(dǎo)出另一些項(xiàng)在同一事
7、務(wù)中也出現(xiàn)(為簡單化,將(X包含在T)=>(Y包含在T)表示為X=>Y,這里,‘=>’稱為‘關(guān)聯(lián)’操作,X稱為關(guān)聯(lián)規(guī)則的先決條件,Y稱為關(guān)聯(lián)規(guī)則的結(jié)果).事務(wù)數(shù)據(jù)庫D中的規(guī)則X=>Y是由支持度s(support)和置信度c(confidence)約束,置信度表示規(guī)則的強(qiáng)度,支持度表示在規(guī)則中出現(xiàn)的頻度。數(shù)據(jù)項(xiàng)集X的支持度s(X)是D中包含X的事務(wù)數(shù)量與D的總事務(wù)數(shù)量之比,但為下文便于敘述,數(shù)據(jù)項(xiàng)集X的支持度是用數(shù)據(jù)庫D中包含X的數(shù)量來表示;c.............規(guī)則X=>Y的支持度s定義為:在D
8、中包含X∪Y的事務(wù)所占比例為s%,表示同時(shí)包含X和Y的事務(wù)數(shù)量與D的總事務(wù)量之比。用該項(xiàng)集出現(xiàn)的次數(shù)除以TID總數(shù)即可得到,用如下公式表示:Support(X)=Count(X)/Count(TID)規(guī)則X=>Y的置信度c定義為:在D中,c%的事務(wù)包含X的同時(shí)也包含Y,表示D中包含X的事務(wù)中有多大可能性包含Y.依據(jù)所求的頻繁項(xiàng)集,及所求得的支持度,運(yùn)用如下公式求解:Confidence(X=>Y)=Support(X∪Y)/Support(X)最小支持度