資源描述:
《漫談數(shù)據(jù)挖掘技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、漫談數(shù)據(jù)挖掘技術(shù)李國正上海交通大學(xué)圖像處理與模式識別研究所現(xiàn)在我們已經(jīng)生活在一個網(wǎng)絡(luò)化的時代,通信、計算機和網(wǎng)絡(luò)技術(shù)正改變著整個人類和社會。網(wǎng)絡(luò)之后的下一個技術(shù)熱點是什么?讓我們來看一些身邊俯拾即是的現(xiàn)象:《紐約時報》由60年代的10~20版擴張至現(xiàn)在的100~200版;《北京青年報》也已是16~40版?,F(xiàn)在人均日閱讀時間通常為30~45分鐘,只能瀏覽一份24版的報紙。在商業(yè)上,隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多,以GB計。這就是所謂的“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。大量信息在給人們帶來方便的同時也帶來了一大堆問題,人們開始考慮:“如何才能不被信息淹
2、沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率?”面對這一挑戰(zhàn),數(shù)據(jù)挖掘(DataMining)技術(shù)應(yīng)運而生,并顯示出強大的生命力。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。這種新式的商業(yè)信息處理技術(shù),可以按商業(yè)既定業(yè)務(wù)目標(biāo),對大量的商業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化。從數(shù)據(jù)到信息的進化
3、過程中,每一步前進都是建立在上一步的基礎(chǔ)上的。表中我們可以看到,第四步進化是革命性的,因為從用戶的角度來看,這一階段的數(shù)據(jù)庫技術(shù)已經(jīng)可以快速地回答商業(yè)上的很多問題了。進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在中國的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫、決策支持(90年代)“在中國的分部去年三月
4、的銷售額是多少?據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個月上海的銷售會怎么樣?為什么?”高級算法、多處理器計算機、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測性的信息數(shù)據(jù)挖掘過程在實施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目標(biāo)是必要的,有了好的計劃才能保證數(shù)據(jù)挖掘有條不紊的實施并取得成功。很多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問公司投提供了一些數(shù)據(jù)挖掘過程模型,來指導(dǎo)他們
5、的用戶一步步的進行數(shù)據(jù)挖掘工作。比如SPSS公司的5A和SAS公司的SEMMA。數(shù)據(jù)挖掘過程模型步驟主要包括:1定義商業(yè)問題;2建立數(shù)據(jù)挖掘模型;3分析數(shù)據(jù);4準(zhǔn)備數(shù)據(jù);5建立模型;6評價模型;7實施。1定義商業(yè)問題。在開始知識發(fā)現(xiàn)之前最先的同時也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問題。必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。比如想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。2.建立數(shù)據(jù)挖掘庫。建立數(shù)據(jù)挖掘庫包括以下幾個步驟:a數(shù)據(jù)收集;b數(shù)據(jù)描述;c選擇;d數(shù)據(jù)質(zhì)量評估
6、和數(shù)據(jù)清理;e合并與整合;f構(gòu)建元數(shù)據(jù);g加載數(shù)據(jù)挖掘庫;h維護數(shù)據(jù)挖掘庫;3.分析數(shù)據(jù)。分析的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。4.準(zhǔn)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??梢园汛瞬襟E分為4個部分:a.選擇變量。b.選擇記錄。c.創(chuàng)建新變量。d.轉(zhuǎn)換變量。5.建立模型。建立模型是一個反復(fù)的過程。需要仔細(xì)考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來
7、測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準(zhǔn)確性。訓(xùn)練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分:一個用于模型訓(xùn)練,另一個用于模型測試。6.評價和解釋。模型建立好之后,必須評價得到結(jié)果、解釋模型的價值。從測試集中得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中,需要進一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。經(jīng)驗證有效的模