資源描述:
《《資料探勘技術(shù)》ppt課件》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第十八章資料探勘技術(shù)本章大綱第一節(jié)導論第二節(jié)資料探勘的動機及程序第三節(jié)資料探勘的分類技術(shù)第四節(jié)資料探勘的相關(guān)分析技術(shù)第五節(jié)時間相關(guān)的資料探勘技術(shù)第六節(jié)資料探勘的應用第七節(jié)結(jié)論學習目標資料探勘的基本概念資料探勘的程序資料探勘的常用技術(shù),包括分類、關(guān)聯(lián)分析等資料探勘技術(shù)在建立企業(yè)智慧及決策支援系統(tǒng)的應用資料探勘的基本概念建立企業(yè)智慧最主要的方法之一。資料探勘是從資料中發(fā)掘知識的過程,亦有人稱為資料庫的知識挖掘(KnowledgeDiscoveryinDatabases,KDD)資料考古學(DataArchaeology)資料型態(tài)分析(Da
2、taPatternAnalysis)資料探勘的定義從大量資料中,尋找事前未知(previouslyunknown)、有效(valid)且可以付諸行動(actionable)之規(guī)則或知識。資料探勘的基本概念(續(xù))資料探勘的常用技術(shù),依其性質(zhì)分為三類分類技術(shù)相關(guān)分析時間順序分析圖18-1資料探勘技術(shù)分類DataMining技術(shù)應用分類技術(shù)相關(guān)分析時間相關(guān)時間序列分析順序相關(guān)分析鏈結(jié)分析關(guān)聯(lián)分析集群分析歸納分析購物籃分析金融信用分析資料探勘的動機瞭解過去經(jīng)營資料中有用的可能關(guān)係找出有助於未來經(jīng)營決策的知識分析特定顧客的行為或市場的變化對影響
3、經(jīng)營的因素有深入的瞭解資料探勘的程序決定企業(yè)探勘資料的目的資料收集與整合選擇適當?shù)馁Y料探勘技術(shù)結(jié)果分析知識應用圖18-2配合企業(yè)問題與資料探勘技術(shù)的可能應用維繫客戶關(guān)係避免客戶流失穩(wěn)定流動性高的客戶產(chǎn)品創(chuàng)新定義/預測流動性高之客戶交叉行銷企業(yè)問題資料探勘任務資料探勘技術(shù)新產(chǎn)品與市場開發(fā)產(chǎn)品搭配分類分析集群分析聯(lián)結(jié)分析次序相關(guān)分析企業(yè)策略資料探勘的分類技術(shù)歸納分類(Classification)集群分析(ClusteringAnalysis)歸納分類若一組資料共有N類,分別為C1…CN,而且一個案例在Ci類的機率為P(Ci),則計算該組
4、資料的公式為歸納分類(續(xù))H(C
5、Competition=Low)=-p(Up
6、Competition=Low)×log2(Up
7、Competition=Low)-p(Down
8、Competition=Low)×log2(Down
9、Competition=Low)==0.918H(C
10、Competition=High)=-p(Up
11、Competition=High)×log2(Up
12、Competition=High)-p(Down
13、Competition=High)×log2(Down
14、Competition=High)==0.
15、811歸納分類(續(xù)1)因為應用Competition加以分類後,會分成Sales=Up及Sales=Down兩類。因此其分類的總值為H(C
16、A)=即以上例而言H(C
17、Competition)==0.8752表18-1產(chǎn)品銷售分析案例AgeCompetitionTypeSales1OldLowSoftwareDown2MidlifeHighSoftwareDown3MidlifeLowHardwareUp4OldLowHardwareDown5NewLowHardwareUp6NewLowSoftwareUp7MidlifeLowSof
18、twareUp8NewHighSoftwareUp9MidlifeHighHardwareDown10OldHighSoftwareDown圖18-3ID3產(chǎn)生的決策樹AgeOldNewMidlifeCompetitionDownUpLowHighUpDown集群分析K平均演算法步驟1:隨機初始k個中心點m1,m2,...,mk。步驟2:將物件集合中的每個物件按照與k個中心點的不相似性,將其歸屬於最相似中心點的集群中。步驟3:針對每一個mi所代表的集群,計算這個集群所有物件之各屬性的平均值,並以此向量取代mi。步驟4:若所有中心點在步
19、驟3中沒有更動,則此時已完成集群分析並停止執(zhí)行,否則跳至步驟2繼續(xù)執(zhí)行。表18-2業(yè)務員年齡與業(yè)績統(tǒng)計編號年齡業(yè)績編號年齡業(yè)績143597.31129744.1221288.31230984.2326652.1133459.3424679.61427419.1534600.41523558.8627402.41629275.0731805.11734559.9836767.61845561.6922956.81934385.41026352.22046368.5業(yè)績單位:萬元圖18-4業(yè)務員年齡與業(yè)績散佈圖業(yè)務員年齡與業(yè)績散佈圖0.0
20、200.0400.0600.0800.01000.01200.001020304050年齡業(yè)績業(yè)績表18-3三個集群的成員業(yè)績量高業(yè)績量中業(yè)績量低(31,805.1)(36,767.6)(22,956.8)(29,744