資源描述:
《模式識別與人工智能.pdf》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、模式識別與人工智能原理喬誼正教授山東大學,控制科學與工程學院2006年十二月學而不思則罔;思而不學則殆。-孔子Learningwithoutthoughtmeanslaborlost;thoughtwithoutlearningisperilous.-Confucius知識有兩種,其一是我們自己精通的問題,其二是我們知道在哪里可以找到關于某問題的知識。-約翰遜Knowledgeisoftwokinds,weknowasubjectourselves,orweknowwecanfindinformat
2、ionuponit.-SamuelJohnson第三章統(tǒng)計模式識別方法3.1引言n判別域代數(shù)方程法只能適合具有確定性特征的分類問題。然而,非確定性特征的分類問題大量存在。例如,通過物理測量手段獲得的數(shù)據,一般是具有統(tǒng)計特性的統(tǒng)計量。許多用來描述模式的特征,在本質上講是非確定性的。n不同類別的邊界存在相互交疊或覆蓋,也是實際分類問題中經常碰到的現(xiàn)象。該現(xiàn)象的實質是,模式類別在特征空間中呈現(xiàn)空間密度分布的事實。n分類結果的可靠性或可信度,常常與模式類別的分布形式密切相關,所以,進一步考慮模式樣本的總體分
3、布特點,有助于對模式分類機制的深入了解。n統(tǒng)計分類法的發(fā)展正是為了解決上述判別域代數(shù)方程法不能解決的問題。3.1.1模式識別的統(tǒng)計模型n隨機模型是用來描述自然界中不確定現(xiàn)象的數(shù)學模型。有大量自然現(xiàn)象可以用概率與統(tǒng)計規(guī)律很好地加以描述。n考察例1.1中的身高和體重兩個特征量。一方面,由于測量過程具有不確定性。另一方面,用身高和體重描述男生和女生,在本質上是一種運用統(tǒng)計規(guī)律的描述。所以應當采用統(tǒng)計(隨機)模型,而不是簡單的確定性模型。n統(tǒng)計模型的要點是,將模式的特征量考慮為符合某種統(tǒng)計規(guī)律(概率密度分布
4、)的隨機量。而任一個模式樣本是取自總體中的一個個體。n因此,在統(tǒng)計模式識別中主要要解決下列三個問題。n判別問題:已知若干總體分布,當給出一個個體樣本時,要確定這個樣本屬于哪個總體?n訓練問題:已知一些個體樣本,分別屬于某些總體,要確定這些總體的分布規(guī)律(或參數(shù)。)n誤判率問題:研究運用上述模型所造成的誤判率的計算。3.1.1模式識別的統(tǒng)計模型n用下面簡圖表示該統(tǒng)計模型:下面通過一個例子說明整個過程。例3.1男生女生的分類問題(統(tǒng)計模型)樣本的特征數(shù)據和例1.1相同。假定男生和女生的身高和體重都符合正
5、態(tài)分布,分別形成兩維的類正態(tài)密度函數(shù)。3.1.1模式識別的統(tǒng)計模型n類分布密度函數(shù):1/22假設:P(Xi)=(1/2p
6、Si
7、)exp(-gi/2);i=1,2;P(Xi)分別為男生和女生的類分布密度函數(shù)(兩維正態(tài)型)。其中Si是2*2協(xié)方差矩陣;
8、Si
9、是Si的行列式。2T-1gi=(Xi-mi)Si(Xi-mi);mi為Xi的均值矢量。正態(tài)密度分布函數(shù)實際上只包含兩個參數(shù):mi和Si。他們的含義和圖形,在一維條件下,大家一定很熟悉。兩維也不難想象,但是三維以上就沒有直觀形象了。為了便于形象地描
10、述,以后我們常舉一維或兩維特征為例。但是,應該清楚統(tǒng)計模型適合于有限維。3.1.2判別問題n判別問題是解決:已知若干總體分布,當給出一個個體樣本時,要確定這個樣本屬于哪個總體。右圖表示已知三類分布,A,B,和C。當給出一個未知類別的樣本x時,如何確定x應當屬于哪個類別總體?n一個可行的解決方案是計算x到各類總體的距離,選擇最短距離的總體,作為x的最優(yōu)歸屬類別。n這就需要規(guī)定一個點到一個類總體的距離。很顯然,這個距離定義不是一般意義下的那種。因為這個距離除了與點到總體的均值距離成正比之外,還應當與該總
11、體的協(xié)方差成反比。所以,需要定義統(tǒng)計距離。3.1.2判別問題n常用的統(tǒng)計距離定義有許多,其中最著名的是馬氏距離(MahalanobisDistance):-11/2dij=[(xi–xj)’S(xi–xj)]。n利用馬氏距離,可以確立判別問題的準則。稱之為馬氏距離分類法。3.1.3馬氏距離分類法首先討論兩類問題,分兩種情況。然后推廣到多類問題。(1)(2)n兩類、等協(xié)方差:定義判別函數(shù)為任一點X到兩類總體m和m的馬氏2(1)2(2)距離平方差。即d(X,m)-d(X,m)=(1)-1(1)(2)-1
12、(2)(X-m)’S(X-m)-(X-m)’S(X-m)=-2W(X);其中(1)(2)-1(1)(2)W(X)=[X–(m+m)/2]’S(m-m);(1)判決條件為:當W(X)<0,判X屬于總體m;(2)W(X)>0,判X屬于總體m;W(X)=0,不能/任意確定。3.1.3馬氏距離分類法n兩類、不等協(xié)方差:此時的判別函數(shù)是關于X的二次函數(shù)。(1)-1(1)(2)-1(2)W(X)=(X-m)’S1(X-m)-(X-m)’S2(X-m);判決條件與上述相同。n多類問