資源描述:
《基于粗糙集理論的數(shù)據(jù)挖掘模型.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、ISSN100020054清華大學學報(自然科學版)1999年第39卷第1期29?33CN1122223?NJTsinghuaUniv(Sci&Tech),1999,Vol.39,No.1110~1133基于粗糙集理論的數(shù)據(jù)挖掘模型李永敏,朱善君,陳湘暉,張岱崎,韓曾晉清華大學自動化系,北京100084文摘提出了一種基于粗糙集理論的數(shù)據(jù)挖掘模型,以利潛在價值的、以及最終的可理解的模式的非常規(guī)的于信息不完備情況下的推理和決策問題的解決和研究。該模過程。知識發(fā)現(xiàn)的過程包括數(shù)據(jù)準備、模式搜索、知型從已知數(shù)據(jù)的初始決策
2、系統(tǒng)出發(fā),建立一系列的不同簡化識評估以及知識提煉等許多步驟,而這些步驟構成層次的子系統(tǒng),然后推導出各個子系統(tǒng)的規(guī)則集,其中每條一個多重循環(huán)的過程。一般認為,數(shù)據(jù)挖掘是組成知規(guī)則都有相應的置信度。在應用模型進行推理和決策分析識發(fā)現(xiàn)過程的一個環(huán)節(jié),它是在某種可接受的約束時,用給定對象的信息與模型中相應節(jié)點的規(guī)則進行匹配,條件下,應用數(shù)據(jù)分析和數(shù)據(jù)發(fā)現(xiàn)算法,從數(shù)據(jù)中獲然后選用某種評判算法得出結論。給出了一個簡單的例子來說明如何建立和應用這種數(shù)據(jù)挖掘模型。這樣的模型可以很取某些特定模式的過程。方便地根據(jù)給定的信息,在最
3、符合的子系統(tǒng)上得出盡可能好知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的研究方法包括:分類、的結論。回歸、聚類、歸納等等。但是,目前研究也碰到一些關鍵詞粗糙集;知識發(fā)現(xiàn);數(shù)據(jù)挖掘;決策系統(tǒng)問題和挑戰(zhàn),如大數(shù)據(jù)量和維數(shù)災難問題、過度匹配分類號TP18問題、數(shù)據(jù)及其結構的改變對知識發(fā)現(xiàn)的影響、如何[2,3]有效地利用操作者的先驗知識的問題等。粗糙集理論的特點是不需要預先給定某些特征知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的研究融合了許多領域的或屬性的數(shù)量描述,如統(tǒng)計學中的概率分布、模糊集研究成果,如模式識別、神經(jīng)網(wǎng)絡、機器學習、數(shù)據(jù)理論中的隸屬度或隸屬函數(shù)等,而
4、是直接從給定問庫、分類與聚類、最優(yōu)化技術、高性能并行計算、知識題的描述集合出發(fā),通過不可分辨關系和不可分辨建模、可視化等。類確定給定問題的近似域,從而找出該問題中的內(nèi)2粗糙集[1]在規(guī)律。粗糙集理論的出發(fā)點是,根據(jù)目前已有的對給近年來,粗糙集理論和應用的研究取得了很快定問題的知識將問題的論域進行劃分,然后對劃分發(fā)展,其涉及的領域很廣,包括模式識別、機器學習、后的每一個組成部分確定其對某一概念的支持程決策分析和決策支持、知識獲取、知識發(fā)現(xiàn)等。粗糙度:即肯定支持此概念、肯定不支持此概念和可能集理論同模糊集、神經(jīng)網(wǎng)絡
5、、證據(jù)理論等其它理論一支持此概念。在粗糙集理論中,以上三種情況分別用起,成為不確定性計算的一個重要分支。三個近似集合來表示為正域、負域和邊界。為描述方本文提出了一種基于粗糙集理論的數(shù)據(jù)挖掘模便,可以采用文[1]提出的知識表示系統(tǒng)和決策系統(tǒng)型,這種模型能夠將問題定義為一系列不同簡化層對問題進行描述,這樣,粗糙集的方法和模型就可以次上的子問題,從而在許多數(shù)據(jù)不完備的情況下也[4]建立在一種非常直觀的二維表的基礎上。能夠迅速地給出相對滿意的輸出。2.1知識表示系統(tǒng)和決策系統(tǒng)1知識發(fā)現(xiàn)和數(shù)據(jù)挖掘定義1稱S=(U,A,{
6、Va},a)為知識表示系知識發(fā)現(xiàn)是指從數(shù)據(jù)中識別合法的、新穎的、有統(tǒng),其中,U為非空有限集,稱論域;A為非空有限集,稱屬性集合;Va為屬性a∈A的值域;a:U→Va收稿日期:1998205213第一作者:男,1967年生,講師為一單射,使論域U中任一元素取屬性a在Va中3基金項目:國家自然科學基金項目,69784005的某一唯一值。如果A由條件屬性集合C和結論屬李永敏,等:基于粗糙集理論的數(shù)據(jù)挖掘模型111性集合D組成,C,D滿足C∪D=A,C∩D=5,這樣,通過一組相對簡約,可以得到?jīng)Q策系統(tǒng)[5]則稱S為決策
7、系統(tǒng)。S=(U,C∪r076c1w)中最簡單的規(guī)則集,其中,每個相為了表示簡單,有時用(U,C∪e3n6jcv)表示決策系對簡約就是一條規(guī)則的前件。統(tǒng),即結論屬性集合只包含一個元素。3基于粗糙集理論的數(shù)據(jù)挖掘模型定義2對決策系統(tǒng)S=(U,C∪rwfnx34),BAC數(shù)據(jù)挖掘的目的在于從大量數(shù)據(jù)中發(fā)現(xiàn)那些令是條件屬性集合的一個子集,稱二元關系ind(B,人感興趣的規(guī)則,一般地講,這些規(guī)則在表現(xiàn)形式上l2gwe9w)={(x,y)∈U×U:d(x)=d(y)或者Pa∈B,應比較簡潔,并且具有一定程度的概括性。同時,在a(x)=a(y)}為S的不可
8、分辨關系,其中,x,y為U實際問題中,待處理的數(shù)據(jù)常有某種程度的不完備,[5]中的元素。這表現(xiàn)在知識表示系統(tǒng)或決策系統(tǒng)中即某些屬性沒2.2粗糙集有賦值。造成這種情況的原因可能有以下幾種:1)定義3對于知識表示系統(tǒng)S=(U,A),設B有些信息無法獲取;2)獲取這些信息的代價較大;AA,XAU,定義集合XB={x∈U?[x]ind(B)A3)實時性能要求較高,即要求在得到這些信息之前X},