資源描述:
《數(shù)據(jù)挖掘:伴隨大數(shù)據(jù)崛起的預言者》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、數(shù)據(jù)挖掘:伴隨大數(shù)據(jù)崛起的預言者 數(shù)據(jù)挖掘(DataMining,DM)是目前人工智能和數(shù)據(jù)庫領域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程,它伴隨著大數(shù)據(jù)的神話而崛起。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險,做出正確的決策。 源自需求 數(shù)據(jù)挖掘是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術,主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示3個步驟。數(shù)據(jù)準備是從相關的數(shù)據(jù)
2、源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。 需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產(chǎn)控制,市場分析,工程設計和科學探索等?! ?shù)據(jù)挖掘利用了來自如下一些領域的思想:來自統(tǒng)計學的抽樣、估計和假設檢驗;人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領域的思想,這些領域
3、包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能計算的技術在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術也能幫助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關重要?! 脧V泛 數(shù)據(jù)挖掘在各領域的應用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價值與需求的數(shù)據(jù)倉儲或數(shù)據(jù)庫,皆可利用Mining工具進行有目的的挖掘分析。一般較常見的應用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財務金融保險、通訊業(yè)以及醫(yī)療服務等?! ∮阡N售數(shù)據(jù)中發(fā)掘顧客的消費習性,并可藉由交易紀錄找出顧客偏好的產(chǎn)品組合,
4、包括找出流失顧客的特征與推出新產(chǎn)品的時機點等等都是零售業(yè)常見的實例;直效行銷強調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導入數(shù)據(jù)挖掘的技術后,使直效行銷的發(fā)展性更為強大;制造業(yè)對數(shù)據(jù)挖掘的需求多運用在品質(zhì)控管方面,由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率?! 〗鼇黼娫捁?、信用卡公司、保險公司以及股票交易商對于詐欺行為的偵測都很有興趣,這些行業(yè)每年因為詐欺行為而造成的損失都非??捎^,數(shù)據(jù)挖掘可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預測可能的詐欺交易,達到減少損失的目的。財務金融業(yè)可以利用數(shù)據(jù)挖掘來分析市場動向,并預測個別公司的營運以及股價走向。數(shù)據(jù)挖掘的另一個獨特的用法
5、是在醫(yī)療業(yè),用來預測手術、用藥、診斷、或是流程控制的效率?! ∑【婆c尿布 在網(wǎng)絡上有一句經(jīng)典的話叫“哪兒有數(shù)據(jù)挖掘哪兒就有啤酒與尿布”,說的就是數(shù)據(jù)挖掘的經(jīng)典案例?!捌【婆c尿布”的故事可以說是營銷界的經(jīng)典段子。故事的時間跨度從上個世紀80年代到本世紀初,甚至連故事的主角和地點都會發(fā)生變化――從美國跨越到歐洲。其實,沃爾瑪?shù)摹捌【婆c尿布”案例是正式刊登在1998年的《哈佛商業(yè)評論》上面的,這應該算是目前發(fā)現(xiàn)的最權威報道。 “啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”
6、兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。 在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止?! ∮纱?,沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地
7、完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入?! ∥覈鴶?shù)據(jù)挖掘仍處初級階段 就目前而言,關聯(lián)規(guī)則挖掘技術已經(jīng)被廣泛應用在西方金融行業(yè)企業(yè)中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷?,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,