資源描述:
《數(shù)據(jù)挖掘1序論浙大》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、數(shù)據(jù)挖掘教科書(shū)和參考書(shū)教科書(shū)數(shù)據(jù)挖掘:概念與技術(shù),JiaweiHan和MichelineKamber著,機(jī)械工業(yè)出版社(2001)參考書(shū)數(shù)據(jù)挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著,機(jī)械工業(yè)出版社(2003)中文版英文影印版數(shù)據(jù)挖掘的發(fā)展動(dòng)力---需要是發(fā)明之母數(shù)據(jù)爆炸問(wèn)題自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫(kù)技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息解決方法:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)和在線(xiàn)分析處理(OLAP)數(shù)據(jù)挖掘:
2、在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則,規(guī)律,模式,約束)數(shù)據(jù)庫(kù)技術(shù)的演化(1)1960s和以前:文件系統(tǒng)1970s:層次數(shù)據(jù)庫(kù)和網(wǎng)狀數(shù)據(jù)庫(kù)1980s早期:關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的實(shí)現(xiàn)數(shù)據(jù)庫(kù)技術(shù)的演化(2)1980s晚期:各種高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)(擴(kuò)展的關(guān)系數(shù)據(jù)庫(kù),面向?qū)ο髷?shù)據(jù)庫(kù)等等.)面向應(yīng)用的數(shù)據(jù)庫(kù)系統(tǒng)(空間數(shù)據(jù)庫(kù),時(shí)序數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)等等)1990s:數(shù)據(jù)挖掘,數(shù)據(jù)倉(cāng)庫(kù),多媒體數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)2000s流數(shù)據(jù)管理和挖掘基于各種應(yīng)用的數(shù)據(jù)挖掘XML數(shù)據(jù)庫(kù)和整合的信息系統(tǒng)什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí))從大量的數(shù)據(jù)中挖掘哪些令人
3、感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí)挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個(gè)精確的用詞)數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)知識(shí)提煉、數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。數(shù)據(jù)挖掘:數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)數(shù)據(jù)挖掘——知識(shí)挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估KDD的步驟從KDD對(duì)數(shù)據(jù)挖掘的定義中可以看到當(dāng)前研究領(lǐng)域?qū)?shù)據(jù)挖掘的狹義和廣義認(rèn)識(shí)數(shù)據(jù)清理:(這個(gè)可能要占全過(guò)程60%的工作量)數(shù)據(jù)集成數(shù)據(jù)選擇數(shù)據(jù)變換數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉?lái)找到感興趣的模式)模式評(píng)估知識(shí)表
4、示典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)清洗過(guò)濾數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)挖掘引擎模式評(píng)估圖形用戶(hù)界面知識(shí)庫(kù)數(shù)據(jù)集成并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP系統(tǒng)OLAP系統(tǒng)專(zhuān)注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對(duì)數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專(zhuān)注于數(shù)據(jù)的查詢(xún)處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)事務(wù)數(shù)據(jù)庫(kù)高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)空間數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)流數(shù)據(jù)多媒體數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)異種
5、數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù)文本數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)(WWW)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)是指在關(guān)系型數(shù)據(jù)庫(kù)(DBMS)內(nèi)部對(duì)地理信息進(jìn)行物理存儲(chǔ)??臻g數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)包括對(duì)象的空間拓?fù)涮卣鳌⒎强臻g屬性特征以及對(duì)象在時(shí)間上的狀態(tài)變化。常見(jiàn)的空間數(shù)據(jù)庫(kù)數(shù)據(jù)類(lèi)型地理信息系統(tǒng)(GIS)遙感圖像數(shù)據(jù)醫(yī)學(xué)圖像數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用:通過(guò)空間分類(lèi)和空間趨勢(shì)分析,引入機(jī)器學(xué)習(xí)算法,對(duì)有用模式進(jìn)行智能檢索時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)都存放與時(shí)間有關(guān)的數(shù)據(jù)。時(shí)間數(shù)據(jù)庫(kù)通常存放包含時(shí)間相關(guān)屬性的數(shù)據(jù)。時(shí)序數(shù)據(jù)庫(kù)存放隨時(shí)間變化的值序列。對(duì)時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,
6、可以通過(guò)研究事物發(fā)生發(fā)展的過(guò)程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對(duì)象的演變特征或?qū)ο笞兓厔?shì)。流數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。主要應(yīng)用場(chǎng)合網(wǎng)絡(luò)監(jiān)控網(wǎng)頁(yè)點(diǎn)擊流股票市場(chǎng)流媒體…等等與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比,流數(shù)據(jù)在存儲(chǔ)、查詢(xún)、訪問(wèn)、實(shí)時(shí)性的要求等方面都有很大區(qū)別。多媒體數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)實(shí)現(xiàn)用計(jì)算機(jī)管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)一般將這些多媒體數(shù)據(jù)以二進(jìn)制大對(duì)象的形式進(jìn)行存儲(chǔ)。對(duì)于
7、多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,需要將存儲(chǔ)和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫(kù)的多特征提取和基于相似性的模式匹配。面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫(kù)技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對(duì)數(shù)據(jù)以對(duì)象的形式進(jìn)行存儲(chǔ),并在這個(gè)基礎(chǔ)上實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)的功能,包括持久性、并發(fā)控制、可恢復(fù)性、一致性和查詢(xún)數(shù)據(jù)庫(kù)的能力等。對(duì)象-關(guān)系數(shù)據(jù)庫(kù)基于對(duì)象-關(guān)系模型構(gòu)造,該模型通過(guò)處理復(fù)雜對(duì)象的豐富數(shù)據(jù)類(lèi)型和對(duì)象定位等功能,擴(kuò)充關(guān)系模型。面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘會(huì)涉及一些新的技術(shù),比如處理復(fù)雜對(duì)象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類(lèi)型、類(lèi)和子
8、類(lèi)層次結(jié)構(gòu)