《序論數(shù)據(jù)挖掘》PPT課件

ID:36763618

大小:345.60 KB

頁數(shù):38頁

時(shí)間:2019-05-10

《序論數(shù)據(jù)挖掘》PPT課件_第1頁
《序論數(shù)據(jù)挖掘》PPT課件_第2頁
《序論數(shù)據(jù)挖掘》PPT課件_第3頁
《序論數(shù)據(jù)挖掘》PPT課件_第4頁
《序論數(shù)據(jù)挖掘》PPT課件_第5頁
資源描述:

《《序論數(shù)據(jù)挖掘》PPT課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)主講教師:王玲教科書和參考書教科書數(shù)據(jù)挖掘:概念與技術(shù),JiaweiHan和MichelineKamber著,機(jī)械工業(yè)出版社(2001)參考書數(shù)據(jù)挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著,機(jī)械工業(yè)出版社(2003)DataMining:PracticalLearningToolsandTechniqueswithJavaImplementations作者:(新西蘭)IanH.Witten,EideFrank這本書是結(jié)合開源數(shù)據(jù)挖掘工具weka編寫,用java語言實(shí)現(xiàn),書中描述了怎么去開發(fā),怎么weka的基礎(chǔ)上進(jìn)行二次開

2、發(fā)。機(jī)器學(xué)習(xí)(英文版)作者:TomM.Mitchell中文版英文影印版數(shù)據(jù)挖掘的發(fā)展動(dòng)力---需要是發(fā)明之母數(shù)據(jù)爆炸問題自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息解決方法:數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉庫(DataWarehouse)和在線分析處理(OLAP)數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則,規(guī)律,模式,約束)數(shù)據(jù)庫技術(shù)的演化(1)1960s和以前:文件系統(tǒng)1970s:層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫1980s早期:關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的實(shí)現(xiàn)數(shù)據(jù)庫技術(shù)的

3、演化(2)1980s晚期:各種高級(jí)數(shù)據(jù)庫系統(tǒng)(擴(kuò)展的關(guān)系數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫等等.)面向應(yīng)用的數(shù)據(jù)庫系統(tǒng)(空間數(shù)據(jù)庫,時(shí)序數(shù)據(jù)庫,多媒體數(shù)據(jù)庫等等)1990s:數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫2000s流數(shù)據(jù)管理和挖掘基于各種應(yīng)用的數(shù)據(jù)挖掘XML數(shù)據(jù)庫和整合的信息系統(tǒng)什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí))從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí)挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個(gè)精確的用詞)數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識(shí)挖掘(KDD)知識(shí)提煉、數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。并非所有的東西都是數(shù)據(jù)

4、挖掘基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對(duì)數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合數(shù)據(jù)挖掘應(yīng)用的應(yīng)用領(lǐng)域市場(chǎng)分析和管理百貨公司、超市、銀行、電子商務(wù)風(fēng)險(xiǎn)分析和管理電信、保險(xiǎn)欺詐檢測(cè)和異常模式的監(jiān)測(cè)信用卡、警察機(jī)關(guān)、稅務(wù)部門其他應(yīng)用文本挖掘流數(shù)據(jù)挖掘DNA和生物數(shù)據(jù)分析數(shù)據(jù)挖掘應(yīng)用——市場(chǎng)分析和管理(1)數(shù)據(jù)從那里來?信用卡交易,會(huì)員卡,商家的優(yōu)惠卷,消費(fèi)者投訴電話,公眾生活方式研究目標(biāo)市場(chǎng)構(gòu)建一系列的“客

5、戶群模型”,這些顧客具有相同特征:興趣愛好,收入水平,消費(fèi)習(xí)慣,等等確定顧客的購買模式交叉市場(chǎng)分析貨物銷售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預(yù)測(cè)數(shù)據(jù)挖掘應(yīng)用——市場(chǎng)分析和管理(2)顧客分析哪類顧客購買那種商品(聚類分析或分類預(yù)測(cè))客戶需求分析確定適合不同顧客的最佳商品預(yù)測(cè)何種因素能夠吸引新顧客提供概要信息多維度的綜合報(bào)告統(tǒng)計(jì)概要信息(數(shù)據(jù)的集中趨勢(shì)和變化)數(shù)據(jù)挖掘應(yīng)用——公司分析和風(fēng)險(xiǎn)管理財(cái)務(wù)計(jì)劃現(xiàn)金流轉(zhuǎn)分析和預(yù)測(cè)交叉區(qū)域分析和時(shí)間序列分析(財(cái)務(wù)資金比率,趨勢(shì)分析等等)資源計(jì)劃總結(jié)和比較資源和花費(fèi)競(jìng)爭對(duì)競(jìng)爭者和市場(chǎng)趨勢(shì)的監(jiān)控將顧客按等級(jí)分組和基于等級(jí)的定價(jià)過程將定價(jià)策略應(yīng)

6、用于競(jìng)爭更激烈的市場(chǎng)中數(shù)據(jù)挖掘應(yīng)用——欺詐行為檢測(cè)和異常模式的發(fā)現(xiàn)方法:對(duì)欺騙行為進(jìn)行聚類和建模,并進(jìn)行孤立點(diǎn)分析應(yīng)用:衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等汽車保險(xiǎn):相撞事件的分析洗錢:發(fā)現(xiàn)可疑的貨幣交易行為醫(yī)療保險(xiǎn)職業(yè)病人,醫(yī)生以及相關(guān)數(shù)據(jù)分析不必要的或相關(guān)的測(cè)試電信:電話呼叫欺騙行為電話呼叫模型:呼叫目的地,持續(xù)時(shí)間,日或周呼叫次數(shù).分析該模型發(fā)現(xiàn)與期待標(biāo)準(zhǔn)的偏差零售產(chǎn)業(yè)分析師估計(jì)有38%的零售額下降是由于雇員的不誠實(shí)行為造成的反恐怖主義其他應(yīng)用體育競(jìng)賽美國NBA的29個(gè)球隊(duì)中,有25個(gè)球隊(duì)使用了IBM分析機(jī)構(gòu)的數(shù)據(jù)挖掘工具,通過分析每個(gè)對(duì)手的數(shù)據(jù)(蓋帽、助攻、犯規(guī)等數(shù)據(jù))來獲

7、得比賽時(shí)的對(duì)抗優(yōu)勢(shì)。天文學(xué)JPL實(shí)驗(yàn)室和Palomar天文臺(tái)就曾經(jīng)在數(shù)據(jù)挖掘工具的幫助下發(fā)現(xiàn)了22顆新的恒星網(wǎng)上沖浪通過將數(shù)據(jù)挖掘算法應(yīng)用于網(wǎng)絡(luò)訪問日志,從有市場(chǎng)相關(guān)的網(wǎng)頁中發(fā)現(xiàn)消費(fèi)者的偏愛和行為,分析網(wǎng)絡(luò)行銷的有效性,改善網(wǎng)絡(luò)站點(diǎn)組織。這就是新興的WEB挖掘研究數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識(shí)挖掘(KDD)數(shù)據(jù)挖掘——知識(shí)挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估KnowledgeDiscoveryinDatabase典型數(shù)據(jù)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。
关闭