大型超市購物籃問題.doc

大型超市購物籃問題.doc

ID:58641908

大?。?89.00 KB

頁數(shù):20頁

時(shí)間:2020-10-17

大型超市購物籃問題.doc_第1頁
大型超市購物籃問題.doc_第2頁
大型超市購物籃問題.doc_第3頁
大型超市購物籃問題.doc_第4頁
大型超市購物籃問題.doc_第5頁
資源描述:

《大型超市購物籃問題.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、.......模式識別期中作業(yè)--挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法——Apriori算法c.............一、問題重述作為超市的經(jīng)理,經(jīng)常關(guān)心的問題是顧客的購物習(xí)慣。他們想知道:“什么商品組或集合顧客多半會在一次購物時(shí)同時(shí)購買?”?,F(xiàn)在假設(shè)你們是某超市的市場分析員,已經(jīng)掌握了該超市近一個星期的所有顧客購買物品的清單和相應(yīng)商品的價(jià)格,需要你們給超市經(jīng)理一個合理的“購物籃”分析報(bào)告,并提供一個促銷計(jì)劃的初步方案。問題一:附件1中的表格數(shù)據(jù)顯示了該超市在一個星期內(nèi)的4717個顧客對999種商品的購買

2、記錄,對數(shù)據(jù)進(jìn)行分析,試建立一種數(shù)學(xué)模型,使該模型能定量表達(dá)超市中多種商品間的關(guān)聯(lián)關(guān)系的密切程度。問題二:根據(jù)問題1建立的模型,通過一種快速有效的方法從附件1中的購買記錄中分析出哪些商品是最頻繁被同時(shí)購買的,找到的最頻繁被同時(shí)購買的商品數(shù)量越多越好。問題三:附件2給出了這999中商品的對應(yīng)的利潤,根據(jù)在問題1、問題2中建立的模型,設(shè)定一種初步的促銷方案,使超市的效益進(jìn)一步增大。二、模型的假設(shè)1、假設(shè)各個商品的利潤保持不變。2、假設(shè)表格中的數(shù)據(jù)能真實(shí)地反映當(dāng)?shù)叵M(fèi)者的購物情況。3、假設(shè)短時(shí)間內(nèi)商品的銷售

3、情況維持穩(wěn)定,不會出現(xiàn)大幅波動。三、符號說明符號解釋說明si組合i的支持度c(A=>B)規(guī)則A=>B的置信度c(B=>A)規(guī)則B=>A的置信度ci組合i的平均置信度smin最小支持度cmin最小置信度μ關(guān)聯(lián)密切系數(shù)H促銷系數(shù)c.............四、問題分析本題是關(guān)于大型超市“購物籃”的分析問題,涉及到數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則等相關(guān)問題。本題的三個問題是層層遞進(jìn)的關(guān)系,要求通過對商品購買數(shù)據(jù)的分析,找到關(guān)聯(lián)程度較高且購買次數(shù)較高的商品,最后設(shè)計(jì)出合理的超市促銷方案。問題一,由于購物籃分析是關(guān)聯(lián)規(guī)則挖掘

4、的一個典型案例,因此我們采用一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法——Apriori算法。利用其基本思想,進(jìn)行了商品兩種之間的支持度和置信度計(jì)算,在定義最小支持度和最小置信度后,進(jìn)行篩選得到關(guān)聯(lián)規(guī)則集。為定量地表達(dá)超市中多種商品間的關(guān)聯(lián)關(guān)系的密切程度,本文引入一個關(guān)聯(lián)密切系數(shù)進(jìn)行衡量分別對12個組合求解平均置信度,進(jìn)而得到該組的關(guān)聯(lián)密切系數(shù)。由此認(rèn)為,關(guān)聯(lián)密切系數(shù)越大的商品組合,其關(guān)聯(lián)關(guān)系密切程度較高。問題二,在得到商品兩種關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)上,僅考慮商品支持度的大小,求得在一定最小支持度下被頻繁地

5、同時(shí)購買的商品組合。同時(shí)為使商品數(shù)量盡量多,我們在兩種組合的情況下延伸至三種組合,四種組合……以此得到盡可能多的商品被頻繁同時(shí)購買的信息,盡量靠近最頻繁被同時(shí)購買且商品數(shù)量越多的雙重目標(biāo)。問題三,在結(jié)合商品利潤的條件下,考慮兩種組合中各商品的利潤、支持度和置信度,分別計(jì)算出三者的乘積再求和,記為促銷系數(shù)H,并以此作為衡量此組合商品是否進(jìn)行促銷的標(biāo)準(zhǔn)。當(dāng)結(jié)果較高時(shí),我們就采取就近擺放、打折促銷、消費(fèi)送禮等捆綁銷售方式式得到一種促銷方案,在方便顧客的購買的同時(shí),增加消費(fèi)者對該超市的有好感和信任度,最終使得

6、超市的效益進(jìn)一步增大。五、模型的建立和求解模型一:基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘模型1.模型的準(zhǔn)備設(shè):I={i1,i2......,im}是所有項(xiàng)目的集合.D是所有事務(wù)的集合(即數(shù)據(jù)庫),每個事務(wù)T是一些項(xiàng)目的集合,T包含在D中,每個事務(wù)可以用唯一的標(biāo)識符TID來標(biāo)識.設(shè)X為某些項(xiàng)目的集合,如果X包含在T中,則稱事務(wù)T包含X,關(guān)聯(lián)規(guī)則則表示為如下形式(X包含在T)=>(Y包含在T)的蘊(yùn)涵式,這里X包含在I中,Y包含在I中,并且X∧Y=Φ.其意義在于一個事務(wù)中某些項(xiàng)的出現(xiàn),可推導(dǎo)出另一些項(xiàng)在同一事

7、務(wù)中也出現(xiàn)(為簡單化,將(X包含在T)=>(Y包含在T)表示為X=>Y,這里,‘=>’稱為‘關(guān)聯(lián)’操作,X稱為關(guān)聯(lián)規(guī)則的先決條件,Y稱為關(guān)聯(lián)規(guī)則的結(jié)果).事務(wù)數(shù)據(jù)庫D中的規(guī)則X=>Y是由支持度s(support)和置信度c(confidence)約束,置信度表示規(guī)則的強(qiáng)度,支持度表示在規(guī)則中出現(xiàn)的頻度。數(shù)據(jù)項(xiàng)集X的支持度s(X)是D中包含X的事務(wù)數(shù)量與D的總事務(wù)數(shù)量之比,但為下文便于敘述,數(shù)據(jù)項(xiàng)集X的支持度是用數(shù)據(jù)庫D中包含X的數(shù)量來表示;c.............規(guī)則X=>Y的支持度s定義為:在D

8、中包含X∪Y的事務(wù)所占比例為s%,表示同時(shí)包含X和Y的事務(wù)數(shù)量與D的總事務(wù)量之比。用該項(xiàng)集出現(xiàn)的次數(shù)除以TID總數(shù)即可得到,用如下公式表示:Support(X)=Count(X)/Count(TID)規(guī)則X=>Y的置信度c定義為:在D中,c%的事務(wù)包含X的同時(shí)也包含Y,表示D中包含X的事務(wù)中有多大可能性包含Y.依據(jù)所求的頻繁項(xiàng)集,及所求得的支持度,運(yùn)用如下公式求解:Confidence(X=>Y)=Support(X∪Y)/Support(X)最小支持度

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。