資源描述:
《關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、....關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘?qū)W習(xí)報告學(xué)習(xí)資料....目錄引言2案例2關(guān)聯(lián)規(guī)則3(一)關(guān)聯(lián)規(guī)則定義(二)相關(guān)概念(三)關(guān)聯(lián)規(guī)則分類數(shù)據(jù)6(一)小型數(shù)據(jù)(二)大型數(shù)據(jù)應(yīng)用軟件7(一)WEKA(二)IBMSPSSModeler數(shù)據(jù)挖掘12總結(jié)27學(xué)習(xí)資料....一、引言數(shù)據(jù)庫與互聯(lián)網(wǎng)技術(shù)在日益發(fā)展壯大,人們每天可以獲得的信息量呈指數(shù)級增長。如何從這浩如瀚海的數(shù)據(jù)中找出我們需要的數(shù)據(jù)顯得尤為重要。數(shù)據(jù)挖掘又為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常
2、與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘大致分為以下幾類:分類(Classification)、估計(Estimation)、預(yù)測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)、聚類(Clustering)、復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)。二、案例?"尿布與啤酒"的故事。在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出
3、售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的
4、美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。學(xué)習(xí)資料....在這個案例中使用了數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則分析。關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同項之間的聯(lián)系。毫無疑問,關(guān)聯(lián)分析中發(fā)現(xiàn)的規(guī)則為超市帶來了更多的
5、收益。如果我們能在生活中對關(guān)聯(lián)分析進行應(yīng)用,一定可以解決更多的問題。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大
6、量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。一、關(guān)聯(lián)規(guī)則(一)關(guān)聯(lián)規(guī)則定義關(guān)聯(lián)分析是一種簡單、實用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過
7、了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價目表設(shè)計、商品促銷、商品的排放和基于購買模式的顧客劃分。(二)相關(guān)概念1.關(guān)聯(lián)規(guī)則? 關(guān)聯(lián)規(guī)則是指數(shù)據(jù)之間的簡單的使用規(guī)則,是指數(shù)據(jù)之間的相互依賴關(guān)系。關(guān)聯(lián)規(guī)則形如:XY;其中XI,YI,并且X∩Y=。X為先決條件,Y為結(jié)果;關(guān)聯(lián)規(guī)則反映了項目集X出現(xiàn)的同時項目集Y也會跟著出現(xiàn)。2.支持度(Support)?學(xué)習(xí)資料.... 設(shè)X屬于數(shù)據(jù)項目集,為事務(wù)數(shù)據(jù)庫中包含X的記錄條數(shù),為事務(wù)數(shù)據(jù)庫中記錄的總個數(shù),那么項目集X的支持度=
8、/支持度表示項目集在事物集中出現(xiàn)的頻率的是多少。3.置信度(Confidence)? 有關(guān)聯(lián)規(guī)則XY,其中XI,YI,并且X∩Y=,那么XY的置信度為:?Conf(XY)=*100%=P(Y
9、X)?。置信度是反映在事物X中出現(xiàn)事物Y的條件概率。4.強關(guān)聯(lián)規(guī)則如果某條規(guī)則同時滿足最小支持度和最小置信度則稱