資源描述:
《數(shù)據(jù)挖掘的模式類型及其應(yīng)用領(lǐng)域》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、數(shù)據(jù)挖掘的模式類型及其應(yīng)用領(lǐng)域發(fā)表時間:2009-11-25薛向陽來源:萬方數(shù)據(jù)關(guān)鍵字:數(shù)據(jù)挖掘模式類型BI信息化應(yīng)用調(diào)查我要找茬在線投稿加入收藏發(fā)表評論好文推薦打印文本本文闡述了數(shù)據(jù)挖掘的概念、模式類型及其應(yīng)用領(lǐng)域.目的在于使人能夠根據(jù)其所在領(lǐng)域的挖掘任務(wù)選擇具體的挖掘模式。一、引言???隨著數(shù)據(jù)庫技術(shù)的成熟和數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們已經(jīng)在商業(yè)、政府和科學(xué)等領(lǐng)域的數(shù)據(jù)庫內(nèi)積累r大量歷史數(shù)據(jù),激增的數(shù)據(jù)背后隱藏著許多重要的信息,然而過去由于缺乏挖掘數(shù)據(jù)背后隱藏知識的手段,導(dǎo)致r“數(shù)據(jù)豐富,但信息貧乏”的現(xiàn)象,即所渭“數(shù)據(jù)爆炸”。面對浩森無際的數(shù)據(jù)海洋.人們希望
2、能夠?qū)?shù)據(jù)進行更高層次的分析,以便更好地理解和利用這些數(shù)據(jù)背后所包含的信息,數(shù)據(jù)挖掘(DataMining,DM)便應(yīng)運而生了,這里所指的“知識”就是數(shù)據(jù)中隱含的信息。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中。提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。近年來,國內(nèi)的數(shù)據(jù)挖掘研究也正逐漸掀起高潮,在算法和應(yīng)用方而取得了一些具有擴展性或突破性的研究成果。二、數(shù)據(jù)挖掘的模式類型???由于每種數(shù)據(jù)挖掘技術(shù)都有其自身的特點和實現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,岡此,成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達到日標(biāo),這個過程奉身就是一件很復(fù)雜
3、的事情,下面主要從挖掘任務(wù)這個角度來討論對具體挖掘模式的選擇。根據(jù)挖掘任務(wù),數(shù)據(jù)挖掘可分為概念/類描述;挖掘頻繁模式、關(guān)聯(lián)和相關(guān);分類和顱測;聚類分析;離群點分析和演變分析等。在選擇使用某種數(shù)據(jù)挖掘技術(shù)之前,首先要將待解決的商業(yè)
4、’日J題轉(zhuǎn)化成止確的數(shù)據(jù)挖掘任務(wù),然后根據(jù)挖掘任務(wù)來選擇具體使用某一種或幾種挖掘模式。F面具體地分析每一種挖掘任務(wù)應(yīng)使用哪些挖掘模式:???1.概念/類描述???用匯總的、簡潔的和精確的方式描述各個類和概念可能是有用的。這種類或概念的描述稱為概念/類描述。這種描述可以通過下述方法得到:(1)數(shù)據(jù)特征化,一般地匯總所研究類的數(shù)據(jù);(2)數(shù)據(jù)區(qū)
5、分,將日標(biāo)類與一個或多個可比較類進行比較;(3)數(shù)據(jù)特征化和比較。???2.挖掘頻繁模式、關(guān)聯(lián)和相關(guān)???頻繁模式足在數(shù)據(jù)中頻繁出現(xiàn)的模式。存在多種類型的頻繁模式,包括項集、子序列和f結(jié)構(gòu)。頻繁項集是指頻繁地在事物數(shù)據(jù)集中一起出現(xiàn)的項的集合,如牛奶和面包。頻繁m現(xiàn)的子序列.如顧客傾向于先購買PC再購艾數(shù)碼相機然后再購買內(nèi)存卡這樣的模式是一個(頻繁)序列模式。子結(jié)構(gòu)可能涉及不同的結(jié)構(gòu)形式,如圖、樹或格,可以與項集或子序列結(jié)合在一起。如果一個子結(jié)構(gòu)頻繁地出現(xiàn),則稱它為(頻繁)結(jié)構(gòu)模式。??關(guān)聯(lián)分析是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性,比如在一次購父活動所買不同商品的
6、相天性。以購物籃這個典型例子分析關(guān)聯(lián)規(guī)則,“在購買面包和黃油的顧客中,有90%的人同時也買了牛奶”。即(面包+黃油)牛奶。還可以做其他分析,發(fā)現(xiàn)相關(guān)聯(lián)的屬性——值對之間的有趣的統(tǒng)計相關(guān)。???3.分類和預(yù)測??分類是這樣的過程,它找出描述和區(qū)分數(shù)據(jù)類或概念的模型,以便能夠使用模型預(yù)測類標(biāo)號未知的對象類。導(dǎo)出模型是基J:對訓(xùn)練數(shù)據(jù)集的分析。預(yù)測足建立連續(xù)值函數(shù)模型。也就是說,它用來預(yù)測空缺的或不知道數(shù)值數(shù)據(jù)值,而不是類標(biāo)號。???4.聚類分析???聚類分析數(shù)據(jù)對象不考慮已知的類標(biāo)號。一般情況下,訓(xùn)練數(shù)據(jù)中不提供類標(biāo)號,岡為開始并不知道類標(biāo)號??梢允褂镁垲惍a(chǎn)生這種標(biāo)號。
7、對象根據(jù)最大化類內(nèi)部的相似性、最小化類之問的相似性原則進行聚類或分組。也就是說,對象的簇這樣形成,使得相比之卜.在一個簇中的對象具有很高的相似性,而與其它簇中的對象很不相似。所以形成的每個簇口r以看作一個對象的類,由它可以導(dǎo)出規(guī)則。???5.離群點分析???數(shù)據(jù)庫中町能包含一些數(shù)據(jù)對象,它們與數(shù)據(jù)的一般行為或模型不一致。這些數(shù)據(jù)對象是離群點。大部分數(shù)據(jù)挖掘方法將離群點視為噪聲或異常而丟棄。然而,在一些應(yīng)用中(如欺騙檢測),罕見的事件比正常出現(xiàn)的事什更令人感興趣。離群點數(shù)據(jù)分析稱作離群點挖掘:可以假定一個數(shù)據(jù)分布或概率模型.使崩統(tǒng)計檢驗檢測離群點;或者使用距離度量,將
8、遠離任何簇的對象視為離群點。???6.演變分析???數(shù)據(jù)演變分析描述行為隨時間變化的對象的規(guī)律或趨勢。并對其建模。盡管這可能包括時間相天數(shù)據(jù)的特自E化、區(qū)分,關(guān)聯(lián)和相關(guān)分析、分類、預(yù)測或聚類。這類分析的不同特點包括時間序列數(shù)據(jù)分析、序列或周期模式匹配和基于相似性的數(shù)據(jù)分析。三、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域???目前擻據(jù)挖掘的應(yīng)用領(lǐng)域包括以下八個方面,而每個領(lǐng)域又都有自己的應(yīng)用領(lǐng)域和庇用背景。???(1)金融。金融事務(wù)需要收集和處理大量的數(shù)據(jù),通過對這些數(shù)據(jù)進行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特亂E,然后可能發(fā)現(xiàn)某個客戶、消費群體或組織的金融和商業(yè)興趣,也可觀察金融fH場的變化趨勢。