資源描述:
《主講人朱揚(yáng)勇》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、主講人朱揚(yáng)勇數(shù)據(jù)挖掘軟件發(fā)展分析一、數(shù)據(jù)挖掘概念----定義數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘與人工智能數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)挖掘與KDD2一、數(shù)據(jù)挖掘概念----原由國(guó)民經(jīng)濟(jì)和社會(huì)的信息化社會(huì)信息化后,社會(huì)的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn)社會(huì)信息化后,社會(huì)的歷史是數(shù)據(jù)的歷史因此政府提出“信息化”和“發(fā)展軟件產(chǎn)業(yè)”3一、數(shù)據(jù)挖掘概念----原由數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)越來(lái)越大有價(jià)值的知識(shí)可怕的數(shù)據(jù)4一、數(shù)據(jù)挖掘概念----原由數(shù)據(jù)爆炸,知識(shí)貧乏苦惱:淹沒(méi)在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識(shí)決策模式趨勢(shì)事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場(chǎng)資
2、金分配貿(mào)易選擇在哪兒做廣告銷(xiāo)售的地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計(jì)生命周期5一、數(shù)據(jù)挖掘概念----發(fā)展1989IJCAI會(huì)議:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專(zhuān)題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專(zhuān)題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國(guó)際會(huì)議(KDD’95-98)Journalof
3、DataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會(huì)議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.6一、數(shù)據(jù)挖掘概念----技術(shù)技術(shù)分類(lèi)預(yù)言(Predication):用歷史預(yù)測(cè)未來(lái)描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(lèi)(預(yù)言)聚集異常檢測(cè)7二、數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)
4、用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago
5、的觀點(diǎn)8二、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點(diǎn)支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法挖掘向量數(shù)據(jù)(vector-valueddata)數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理典型的系統(tǒng)如SalfordSystems公司早期的CART系統(tǒng)(www.salford-systems.com)缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。9二、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件CBA新加坡國(guó)立大學(xué)?;陉P(guān)聯(lián)規(guī)則的分類(lèi)算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類(lèi)和預(yù)測(cè)10二、數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點(diǎn)與數(shù)據(jù)庫(kù)管
6、理系統(tǒng)(DBMS)集成支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集通過(guò)支持?jǐn)?shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語(yǔ)言增加系統(tǒng)的靈活性典型的系統(tǒng)如DBMiner,能通過(guò)DMQL挖掘語(yǔ)言進(jìn)行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā)11二、數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner12二、數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner13二、數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點(diǎn)和預(yù)言模型系統(tǒng)之間能夠無(wú)縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能
7、夠及時(shí)反映到預(yù)言模型系統(tǒng)中由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成缺陷不能支持移動(dòng)環(huán)境14二、數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預(yù)言模型系統(tǒng)的接口15二、數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點(diǎn)目前移動(dòng)計(jì)算越發(fā)顯