資源描述:
《數(shù)據(jù)挖掘的模糊系統(tǒng)實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、摘要的實(shí)驗(yàn)也證明了這兩種輸入選擇方法的有效性。本文對(duì)許多著名數(shù)據(jù)挖掘問(wèn)題進(jìn)行了較全面的分析,如MPG預(yù)測(cè)問(wèn)題,BoxJenikin煤氣爐問(wèn)題,波士頓住房問(wèn)題,得到了許多形象、生動(dòng)、有趣的結(jié)淪。楊燦于浙江人學(xué)2005年11月引言本課題的研究背景“我們淹沒(méi)在信息的海洋里,卻因缺乏知識(shí)而饑渴萬(wàn)分?!币籖outherfordD.Roger隨著信息時(shí)代和計(jì)算機(jī)時(shí)代的到來(lái),對(duì)我們?nèi)祟惗?,?shù)據(jù)與信息的獲得都更加方便和快捷。但是,數(shù)據(jù)處理的問(wèn)題卻因大量的、復(fù)雜的數(shù)據(jù)而變得更加棘手。這些大量的數(shù)據(jù)能告訴我們什么呢?這就是“數(shù)據(jù)挖掘”的目標(biāo)。我們要從錯(cuò)綜復(fù)雜
2、的數(shù)據(jù)中去發(fā)現(xiàn)某種重要的模式、某些重要的趨勢(shì),真平地去理解數(shù)據(jù)的內(nèi)涵,這就是從數(shù)據(jù)中獲耿知識(shí)。因此,我們需要一種理論,能系統(tǒng)地描述人類知識(shí)并將其同其它信息一起嵌入到實(shí)際系統(tǒng)中去。模糊系統(tǒng)正是這樣的一個(gè)理想的系統(tǒng)。一般地講,一個(gè)好的工程理論應(yīng)該能夠有效地利用得到的信息。對(duì)于大多數(shù)實(shí)際系統(tǒng)來(lái)說(shuō),有兩個(gè)重要的信息來(lái)源:一個(gè)是用自然語(yǔ)言描述系統(tǒng)性能的專家;另一個(gè)是傳感器提供的測(cè)量數(shù)據(jù)和根據(jù)自然法則推導(dǎo)出來(lái)的數(shù)學(xué)模型。因此,一項(xiàng)重要的任務(wù)就是怎樣將這兩類信息整合到系統(tǒng)設(shè)計(jì)巾去。實(shí)現(xiàn)這種整合的關(guān)鍵在于怎樣將人類知識(shí)整合到同傳感器測(cè)量結(jié)果及數(shù)學(xué)模型類似的
3、“框架”中?;谝?guī)則的模糊系統(tǒng)允許以人類語(yǔ)言的形式來(lái)表述各種信息,因此使模型極易被人理解。模糊集合在真值變量與語(yǔ)言變量問(wèn)起到了極其重要的作用。從數(shù)學(xué)的角度講,模糊系統(tǒng)是一個(gè)萬(wàn)能逼近器,可以任意精度地逼近任意連續(xù)函數(shù)。正如王立新教授(wang,1997)所指出的:“模糊系統(tǒng)理論有以下特點(diǎn):·強(qiáng)調(diào)充分利用各種所能獲得的信息,包括數(shù)據(jù)信息,模型信息,語(yǔ)言信息等?!⒏鞣N信息融為一體,在一個(gè)統(tǒng)一的數(shù)學(xué)框架下進(jìn)行研究?!?qiáng)調(diào)實(shí)用性與理論完備性相結(jié)合,以實(shí)用性為先導(dǎo)?!?yīng)用對(duì)象不限于某個(gè)鄰域,而廣泛適用于工程、經(jīng)濟(jì)、金融、管理、社會(huì)等各個(gè)鄰域?!币缘?/p>
4、是,這并不意味著模糊系統(tǒng)己經(jīng)完美無(wú)缺。現(xiàn)有的模糊系統(tǒng)依然存在著一些問(wèn)題,我們把這些問(wèn)題歸為兩個(gè)大類:1.現(xiàn)有的許多模糊建模方法僅僅是從函數(shù)逼近這個(gè)角度來(lái)研究,即如何改進(jìn)函數(shù)逼近精度以及建模的速度。這只是根據(jù)模糊系統(tǒng)萬(wàn)能逼近的性質(zhì)來(lái)進(jìn)行模糊建模,如何更加充分地利用各種信息尤其是來(lái)自于數(shù)據(jù)的信息呢?這就是數(shù)據(jù)挖掘提出的新要求!模糊系統(tǒng)因?yàn)樗囊?guī)則庫(kù)而倍受人們的關(guān)注與青睞,這是因?yàn)橐?guī)則庫(kù)能夠向人們提供所研究問(wèn)題的信息,這是其它建模方法所無(wú)法比擬的。然而,現(xiàn)有的模糊建模方法還沒(méi)有能很好地考慮這一點(diǎn),而僅僅是從函數(shù)逼近這個(gè)角度來(lái)進(jìn)行研究,還沒(méi)有真證充
5、分發(fā)揮模糊系統(tǒng)的優(yōu)越性。以函數(shù)逼近為目標(biāo)的眾多方法中,Jang(1993)的ANFIS是最為出色的。據(jù)我們了解,到目前為止尚未有方法從逼近速度和精度兩個(gè)方面同時(shí)超過(guò)ANFIS。ANFlS(圖1)的參數(shù)辨識(shí)采取了混合辨識(shí)算法,隸屬度函數(shù)部分的非線性參數(shù)采用最速下降法,結(jié)論部分的線性參數(shù)用最小_二乘法,因此ANFIS具有十分快速和高精度的逼近能力。但是由于ANFIS只從函數(shù)逼近角度考慮,所得到的模糊規(guī)則較難以解釋;更令人焦慮的是,ANFIS擅長(zhǎng)于對(duì)數(shù)據(jù)內(nèi)插值而不善于外推(這點(diǎn)在本文的第四章中有實(shí)例)。這些缺點(diǎn)對(duì)于數(shù)據(jù)挖掘而言是致命的?!羪圖1.
6、ANFIS的結(jié)構(gòu)圖ZWang(1994)的最近鄰聚類法和Chiu(1994)掣J減法聚類法是兩種非常快速的建模方法(速度比ANFIS更快,但精度稍差)。這兩種方法的最人不足是無(wú)法引言提供特別有意義的規(guī)則庫(kù),因而模糊系統(tǒng)獨(dú)特的優(yōu)勢(shì)還是沒(méi)能發(fā)揮出來(lái)。還有的方法,如Wang(1994)的正交最小二乘法,Takagi和Sugeno(1985)的連續(xù)劃分法,Brown和Harris(1994)的樣條構(gòu)造法等等,都存在這樣的問(wèn)題,詳見綜述文章Guillaume(2001)。構(gòu)建高精度、可解釋的模糊系統(tǒng)是我們的建模目標(biāo),從而能更加充分地提取數(shù)據(jù)信息。2.
7、面對(duì)高維數(shù)據(jù),現(xiàn)有的模糊系統(tǒng)幾乎都面I臨著維教災(zāi)難的問(wèn)題:模糊規(guī)則的指數(shù)增長(zhǎng);大量參數(shù)需要擬合而卻只有十分稀疏的數(shù)據(jù)散落在高維空間。問(wèn)題的復(fù)雜度隨涉及變量數(shù)目的增加而指數(shù)上升是一個(gè)常見現(xiàn)象,這不為模糊系統(tǒng)所獨(dú)有。Bellman(1961)稱這種現(xiàn)象為“維數(shù)災(zāi)難”,Hastie(2001)也詳細(xì)地描述過(guò)這種現(xiàn)象。模糊系統(tǒng)在處理高維問(wèn)題時(shí)主要面對(duì)著兩方面的問(wèn)題:一是模糊規(guī)則隨維數(shù)的升高而指數(shù)增長(zhǎng),具體地講,假設(shè)有以個(gè)輸入變量,每個(gè)輸入變量定義m個(gè)模糊集合,則模糊系統(tǒng)的規(guī)則數(shù)為m”。當(dāng)n值較大時(shí),珊”將是一個(gè)巨大的數(shù),在實(shí)際中,有五個(gè)輸入變量并不
8、鮮見,當(dāng)n=5,m=3(通常每個(gè)變量需要定義3個(gè)模糊集合)時(shí),m"=243;如果m=5,這比m=3更接近實(shí)際,則m"=3120。在一個(gè)模糊系統(tǒng)中要采用數(shù)千條規(guī)則是不現(xiàn)實(shí)的,所以模