資源描述:
《數(shù)據(jù)挖掘:概念與技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、簡介本書完整全面地講述數(shù)據(jù)挖掘的概念、方法、技術(shù)和最新研究進展。本書對前兩版做了全面修訂,加強和重新組織了全書的技術(shù)內(nèi)容,重點論述了數(shù)據(jù)預(yù)處理、頻繁模式挖掘、分類和聚類等的內(nèi)容,還全面講述了OLAP和離群點檢測,并研討了挖掘網(wǎng)絡(luò)、復(fù)雜數(shù)據(jù)類型以及重要應(yīng)用領(lǐng)域。本書是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域內(nèi)的所有教師、研究人員、開發(fā)人員和用戶都必讀的參考書,是一本適用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)課程的優(yōu)秀教材,可以用做高年級本科生或者一年級研究生的數(shù)據(jù)挖掘?qū)д摻滩?。序言社會的計算機化顯著地增強了我們產(chǎn)生和收集數(shù)據(jù)的能力。大量數(shù)據(jù)從我們生活的每個角落涌出。存儲的或瞬態(tài)的數(shù)據(jù)的爆炸性增長已激
2、起對新技術(shù)和自動工具的需求,以幫助我們智能地將海量數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。這導致稱做數(shù)據(jù)挖掘的一個計算機科學前沿學科的產(chǎn)生,這是一個充滿希望和欣欣向榮并具有廣泛應(yīng)用的學科。數(shù)據(jù)挖掘通常又稱為數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD),是自動地或方便地提取代表知識的模式;這些模式隱藏在大型數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他大量信息庫或數(shù)據(jù)流中。 本書考察知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的基本概念和技術(shù)。作為一個多學科領(lǐng)域,數(shù)據(jù)挖掘從多個學科汲取營養(yǎng)。這些學科包括統(tǒng)計學、機器學習、模式識別、數(shù)據(jù)庫技術(shù)、信息檢索、網(wǎng)絡(luò)科學、知識庫系統(tǒng)、人工智能、高性能計算和數(shù)據(jù)可視化。我們提供發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的模式
3、的技術(shù),關(guān)注可行性、有用性、有效性和可伸縮性問題。因此,本書不打算作為數(shù)據(jù)庫系統(tǒng)、機器學習、統(tǒng)計學或其他某領(lǐng)域的導論,盡管我們確實提供了這些領(lǐng)域的必要背景材料,以便讀者理解它們各自在數(shù)據(jù)挖掘中的作用。本書是對數(shù)據(jù)挖掘的全面介紹。對于計算科學的學生、應(yīng)用開發(fā)人員、行業(yè)專業(yè)人員以及涉及以上列舉的學科的研究人員,本書應(yīng)當是有用的?! ?shù)據(jù)挖掘出現(xiàn)于20世紀80年代后期,20世紀90年代有了突飛猛進的發(fā)展,并可望在新千年繼續(xù)繁榮。本書全面展示該領(lǐng)域,介紹有趣的數(shù)據(jù)挖掘技術(shù)和系統(tǒng),并討論數(shù)據(jù)挖掘的應(yīng)用和研究方向。寫本書的重要動機是需要建立一個學習數(shù)據(jù)挖掘的有組織的框架——由于這個快
4、速發(fā)展領(lǐng)域的多學科特點,這是一項具有挑戰(zhàn)性的任務(wù)。我們希望本書有助于具有不同背景和經(jīng)驗的人交換關(guān)于數(shù)據(jù)挖掘的見解,為進一步促進這個令人激動的、不斷發(fā)展的領(lǐng)域的成長做出貢獻?! ”緯慕M織 自本書第1版、第2版出版以來,數(shù)據(jù)挖掘領(lǐng)域已經(jīng)取得了重大進展,開發(fā)出了許多新的數(shù)據(jù)挖掘方法、系統(tǒng)和應(yīng)用,特別是對于處理包括信息網(wǎng)絡(luò)、圖、復(fù)雜結(jié)構(gòu)和數(shù)據(jù)流,以及文本、Web、多媒體、時間序列、時間空間數(shù)據(jù)在內(nèi)的新的數(shù)據(jù)類型。這種快速發(fā)展、新技術(shù)不斷涌現(xiàn)使得在一本書中涵蓋整個領(lǐng)域的廣泛內(nèi)容非常困難。因此,我們決定與其繼續(xù)擴大本書的涵蓋面,還不如讓本書以足夠的廣度和深度涵蓋該領(lǐng)域的核心內(nèi)容,
5、而把復(fù)雜數(shù)據(jù)類型的處理留給另一本即將面世的書。 第3版對本書的前兩版做了全面修訂,加強和重新組織了全書的技術(shù)內(nèi)容,顯著地擴充和加強處理一般數(shù)據(jù)類型挖掘的核心技術(shù)。第2版中討論特定主題的章節(jié)(例如,數(shù)據(jù)預(yù)處理、頻繁模式挖掘、分類和聚類)在這一版都被擴充,每章都分成兩章。對于這些主題,一章囊括基本概念和技術(shù),而另一章提供高級概念和方法?! 〉?版關(guān)于復(fù)雜數(shù)據(jù)類型的章節(jié)(例如,流數(shù)據(jù)、序列數(shù)據(jù)、圖結(jié)構(gòu)數(shù)據(jù)、社會網(wǎng)絡(luò)數(shù)據(jù)和多重關(guān)系數(shù)據(jù),以及文本、Web、多媒體和時間空間數(shù)據(jù))現(xiàn)在保留給專門介紹數(shù)據(jù)挖掘的高級課題的新書。為了支持讀者學習這些高級課題,我們把第2版的相關(guān)章節(jié)的電子版
6、放在本書的網(wǎng)站上,作為第3版的配套材料?! 〉?版各章的簡要內(nèi)容如下(重點介紹新的內(nèi)容): 第1章提供關(guān)于數(shù)據(jù)挖掘的多學科領(lǐng)域的導論。該章討論導致需要數(shù)據(jù)挖掘的數(shù)據(jù)庫技術(shù)的發(fā)展歷程和數(shù)據(jù)挖掘應(yīng)用的重要性。該章考察挖掘的數(shù)據(jù)類型,包括關(guān)系的、事務(wù)的和數(shù)據(jù)倉庫數(shù)據(jù),以及復(fù)雜的數(shù)據(jù)類型,如時間序列、序列、數(shù)據(jù)流、時間空間數(shù)據(jù)、多媒體數(shù)據(jù)、文本數(shù)據(jù)、圖、社會網(wǎng)絡(luò)和Web數(shù)據(jù)。該章根據(jù)所挖掘的知識類型、所使用的技術(shù)以及目標應(yīng)用的類型,對數(shù)據(jù)挖掘任務(wù)進行了一般分類。最后討論該領(lǐng)域的主要挑戰(zhàn)?! 〉?章介紹一般數(shù)據(jù)特征。該章首先討論數(shù)據(jù)對象和屬性類型,然后介紹基本統(tǒng)計數(shù)據(jù)描述的典型度
7、量。該章概述各種類型數(shù)據(jù)的數(shù)據(jù)可視化技術(shù)。除了數(shù)值數(shù)據(jù)的可視化方法外,還介紹文本、標簽、圖和多維數(shù)據(jù)的可視化方法。第2章還介紹度量各種類型數(shù)據(jù)的相似性和相異性的方法?! 〉?章介紹數(shù)據(jù)預(yù)處理技術(shù)。該章首先介紹數(shù)據(jù)質(zhì)量的概念,然后討論數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換和數(shù)據(jù)離散化的方法。 第4章和第5章是數(shù)據(jù)倉庫、OLAP(聯(lián)機分析處理)和數(shù)據(jù)立方體技術(shù)的引論。第4章介紹數(shù)據(jù)倉庫和OLAP的基本概念、建模、結(jié)構(gòu)、一般實現(xiàn),以及數(shù)據(jù)倉庫和其他數(shù)據(jù)泛化的關(guān)系。第5章更深入地考察數(shù)據(jù)立方體技術(shù),詳細地研究數(shù)據(jù)立方體的計算方法,包