資源描述:
《數(shù)據(jù)挖掘可挖掘的知識(shí)類型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典元昌安主編鄧 松 李文敬 劉海濤 編著電子工業(yè)出版社雙擊添加主標(biāo)題概念/類描述關(guān)聯(lián)模式分類聚類分析預(yù)測(cè)時(shí)間序列偏差檢測(cè)2概念/類描述就是通過對(duì)某類對(duì)象關(guān)聯(lián)數(shù)據(jù)的匯總、分析和比較,用匯總的、簡(jiǎn)潔的、精確的方式對(duì)此類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述。特征性描述是指從與某類對(duì)象相關(guān)的一組數(shù)據(jù)中提取出關(guān)于這些對(duì)象的共同特征。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的共性。區(qū)別性描述描述兩個(gè)或更多個(gè)不同類對(duì)象之間的差異。生成區(qū)別性描
2、述則涉及目標(biāo)類和對(duì)比類中對(duì)象的共性。2.1概念/類描述2.1概念/類描述數(shù)據(jù)特征的輸出可以用多種形式提供。包括餅圖、條圖、曲線、多維數(shù)據(jù)方和包括交叉表在內(nèi)的多維表。結(jié)果描述也可以用泛化關(guān)系或規(guī)則(稱作特征規(guī)則)形式提供。例如:利用面向?qū)傩缘臍w納方法(AOI),在一個(gè)商場(chǎng)數(shù)據(jù)庫(2000銷售)中進(jìn)行屬性歸納操作,獲得了如下的歸納結(jié)果:表2-1AOI方法挖掘結(jié)果表格表示示意描述地點(diǎn)商品銷售額(百萬)個(gè)數(shù)累計(jì)(千)亞洲歐洲北美亞洲歐洲北美電視電視電視電腦電腦電腦15122812015020030025045010001200180
3、02.1概念/類描述對(duì)于以上結(jié)果,也可以用組合表(crosstab)或其他圖表的形式來加以描述。數(shù)據(jù)分析中可視化圖示非常普遍。表2-2對(duì)應(yīng)表2-1的組合表表示描述圖2-1對(duì)應(yīng)表2-2棒圖表示描述TVComputerTV+ComputersalescountsalescountsalescountAsia1530012010001351300Europe1225015012001621450North_Amaerica2845020018002282250All_region45100047040005255000itemLo
4、cation2.1概念/類描述圖2-2對(duì)應(yīng)表2-1(部分?jǐn)?shù)據(jù))的餅圖表示描述北美51%亞洲27%歐洲22%電視銷售圖2.1概念/類描述區(qū)別性描述是將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性比較。這種比較必須是在具備可比性的兩個(gè)或多個(gè)類之間進(jìn)行。例如,對(duì)某校講師和副教授的特征進(jìn)行比較,可能會(huì)得到這樣一條規(guī)則:“講師:(78%)(paper<3)and(teachingcourse<2)”,而“副教授:(66%)(paper>=3)and(teachingcourse>=2)”;該對(duì)比規(guī)則表示該校講師中約有四分至三的
5、人發(fā)表論文少于三篇且主講課程不超過一門;而對(duì)比之下該校副教授中約有三分至二的人發(fā)表論文不少于三篇且主講課程不少于一門。2.2關(guān)聯(lián)模式關(guān)聯(lián)模式挖掘旨在從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系。這種存在于給定數(shù)據(jù)集中的頻繁出現(xiàn)的關(guān)聯(lián)模式,又稱為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)等。這些關(guān)聯(lián)并不總是事先知道,而是通過數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)分析獲得的,其對(duì)商業(yè)決策具有重要價(jià)值。因而關(guān)聯(lián)分析廣泛用于市場(chǎng)營銷、事務(wù)分析等應(yīng)用領(lǐng)域。挖掘關(guān)聯(lián)知識(shí)的一個(gè)典型應(yīng)用實(shí)例就是市場(chǎng)購物分析。根據(jù)被放到一個(gè)購物袋的(購物)內(nèi)容記錄
6、數(shù)據(jù)而發(fā)現(xiàn)的不同(被購買)商品之間所存在的關(guān)聯(lián)知識(shí)無疑將會(huì)幫助商家分析顧客的購買習(xí)慣。發(fā)現(xiàn)常在一起被購買的商品(關(guān)聯(lián)知識(shí))將幫助商家指定有針對(duì)性的市場(chǎng)策略。比如:顧客在購買牛奶時(shí),是否也可能同時(shí)購買面包或會(huì)購買哪個(gè)牌子的面包,顯然能夠回答這些問題的有關(guān)信息肯定回有效地幫助商家進(jìn)行有針對(duì)性的促銷,以及進(jìn)行合適的貨架商品擺放。如可以將牛奶和面包放在相近的地方或許會(huì)促進(jìn)這兩個(gè)商品的銷售。2.2關(guān)聯(lián)模式根據(jù)關(guān)聯(lián)規(guī)則所涉及變量的多少,可以分為多維關(guān)聯(lián)規(guī)則和單維關(guān)聯(lián)規(guī)則。通常,關(guān)聯(lián)規(guī)則具有:X?Y的形式,即”A1?...?Am?B1?.
7、..?Bn”的規(guī)則;其中,Ai(i?{1,...,m}),Bj(j?{1,...,n})是屬性-值對(duì)。關(guān)聯(lián)規(guī)則X?Y解釋為“滿足X中條件的數(shù)據(jù)庫元組多半也滿足Y中條件”。例如:一個(gè)數(shù)據(jù)挖掘系統(tǒng)可以從一個(gè)商場(chǎng)的銷售(交易事務(wù)處理)記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:age(X,”20-29”)∧income(X,”20K-30K”)?buys(X,”mp3”)[support=2%,confidence=60%]上述關(guān)聯(lián)規(guī)則表示:該商場(chǎng)有的顧客年齡在20歲到29歲且收入在2萬到3萬之間,這群顧客中有60%的人購買了MP3,或
8、者說這群顧客購買MP3的概率為六成。這一規(guī)則涉及到年齡、收入和購買三個(gè)變量(即三維),可稱為多維關(guān)聯(lián)規(guī)則。2.2關(guān)聯(lián)模式對(duì)于一個(gè)商場(chǎng)經(jīng)理,或許更想知道哪些商品是常被一起購買,描述這種情況的一條關(guān)聯(lián)規(guī)則可能是:Contains(X,”computer”)?contain(X,”softwar