資源描述:
《概率密度函數(shù)的估計(jì).ppt》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、陳書(shū)燊第二次學(xué)習(xí)總結(jié)模式識(shí)別概率密度函數(shù)的估計(jì)在上一章貝葉斯決策理論中,已經(jīng)講述了設(shè)計(jì)貝葉斯分類(lèi)器的方法,即在先驗(yàn)概率P(wj)和類(lèi)條件概率密度p(x
2、ωi)已知的情況下,按一定的決策規(guī)則確定判別函數(shù)和決策面。但在實(shí)際問(wèn)題中,類(lèi)條件概率密度常常是未知的。利用樣本集設(shè)計(jì)分類(lèi)器:第一步,利用樣本集估計(jì)P(wj)和p(x
3、ωi),分別記為P(wj)和p(x
4、ωi)。第二步,再將估計(jì)量帶入上一章所講貝葉斯決策規(guī)則中,完成分類(lèi)器設(shè)計(jì)。這一過(guò)程稱(chēng)為基于樣本的兩步貝葉斯決策。1^^概率密度函數(shù)的估計(jì)監(jiān)督參數(shù)估計(jì)非監(jiān)督參數(shù)估計(jì)非參數(shù)估計(jì)2參數(shù)估計(jì):概率密
5、度函數(shù)的形式已知,而表征函數(shù)的參數(shù)未知,通過(guò)訓(xùn)練數(shù)據(jù)來(lái)估計(jì)。最大似然估計(jì)Bayes估計(jì)非參數(shù)估計(jì):總體概率密度函數(shù)的形式未知,樣本所屬類(lèi)別已知,利用訓(xùn)練數(shù)據(jù)直接對(duì)概率密度進(jìn)行推斷。Parzen窗法kn-近鄰法3最大似然估計(jì)樣本集可按類(lèi)別分開(kāi),不同類(lèi)別的密度函數(shù)的參數(shù)分別用各類(lèi)的樣本集來(lái)訓(xùn)練(獨(dú)立)。類(lèi)條件概率密度函數(shù)的形式已知,參數(shù)未知,為了描述概率密度函數(shù)p(x
6、ωi)與參數(shù)θ的依賴(lài)關(guān)系,用p(x
7、ωi,θ)表示。估計(jì)的參數(shù)θ是確定(非隨機(jī))而未知的量。1最大似然估計(jì)1似然函數(shù):對(duì)數(shù)似然函數(shù):1最大似然估計(jì)量使似然函數(shù)梯度為0:一元正態(tài)
8、分布11解得:1μ^^σ2多元正態(tài)分布參數(shù)最大似然估計(jì)1均值向量形式同一元正太分布協(xié)方差矩陣的最大似然估計(jì)為:貝葉斯決策與貝葉斯估計(jì)對(duì)比1決策問(wèn)題:樣本x決策ai真實(shí)狀態(tài)wj狀態(tài)空間A是離散空間先驗(yàn)概率P(wj)參數(shù)估計(jì)問(wèn)題:樣本集K估計(jì)量s真實(shí)參數(shù)s參數(shù)空間S是連續(xù)空間參數(shù)的先驗(yàn)分布p(s)^貝葉斯(最小風(fēng)險(xiǎn))估計(jì)1參數(shù)估計(jì)的條件風(fēng)險(xiǎn):給定x條件下,估計(jì)量的期望損失參數(shù)估計(jì)的風(fēng)險(xiǎn):估計(jì)量的條件風(fēng)險(xiǎn)的期望貝葉斯估計(jì)步驟1確定θ的先驗(yàn)分布p(θ)由樣本集K={x1,x2,…,xN}求出樣本聯(lián)合分布利用貝葉斯公式,求出θ的后驗(yàn)分布p(θ
9、
10、K)求出貝葉斯估計(jì)量(損失函數(shù)為二次函數(shù)):θ^非參數(shù)估計(jì)1參數(shù)估計(jì)方法要求已知總體的分布形式,然而很多實(shí)際問(wèn)題并不知道總體分布形式,或總體分布不是一些通常遇到的典型分布,不能寫(xiě)成某些參數(shù)的函數(shù)。在這些情況下,為了設(shè)計(jì)貝葉斯分類(lèi)器,仍然需要總體分布的知識(shí),于是提出了某些直接用樣本來(lái)估計(jì)總體分布的方法,稱(chēng)之為估計(jì)分布的非參數(shù)法。兩種主要非參數(shù)估計(jì)方法:Parzen窗法kN-近鄰法1估計(jì)的目的:從樣本集K={x1,x2,…,xN}估計(jì)樣本空間中任何一點(diǎn)的概率密度p(x)基本方法:用某種函數(shù)表示某一樣本對(duì)待估計(jì)的密度函數(shù)的貢獻(xiàn),所有樣本所作貢獻(xiàn)
11、的線(xiàn)性組合視作對(duì)某點(diǎn)概率密度p(x)的估計(jì)基本方法1基本思想Parzen窗法1樣本集KN={x1,x2,…,xN}區(qū)域RN是一個(gè)d維超立方體,棱長(zhǎng)hN,體積VN=hNd定義窗函數(shù):1/2,j=1,2,3…其他超立方體內(nèi)樣本數(shù):某點(diǎn)概率密度p(x)的估計(jì):窗函數(shù)的選擇1窗函數(shù)需滿(mǎn)足兩個(gè)條件:幾種常用的窗函數(shù):方窗函數(shù)正態(tài)窗函數(shù)指數(shù)窗函數(shù)kN-近鄰法1均勻窗函數(shù)Parzen估計(jì),窗寬固定,不同位置落在窗內(nèi)的樣本點(diǎn)的數(shù)目是變化的。kN-近鄰估計(jì):把窗擴(kuò)大到剛好覆蓋kN個(gè)點(diǎn),落在窗內(nèi)的樣本點(diǎn)的數(shù)目固定,窗寬是變化的。提高了分辨率。概率密度估計(jì)表達(dá)
12、式:點(diǎn)x處窗的“體積”是VN:關(guān)于分類(lèi)器錯(cuò)誤率的估計(jì)問(wèn)題在上一章中討論了錯(cuò)誤率的計(jì)算問(wèn)題,并指出實(shí)際計(jì)算中的困難,只有在某些特定的情況下才能得到較為滿(mǎn)意的結(jié)果,因此在處理實(shí)際問(wèn)題時(shí),更多的依賴(lài)于實(shí)驗(yàn),即利用樣本來(lái)估計(jì)錯(cuò)誤率,這可以分為兩種情況:(1)對(duì)于已設(shè)計(jì)好的分類(lèi)器,利用樣本來(lái)估計(jì)錯(cuò)誤率。這種只用來(lái)估計(jì)分類(lèi)器錯(cuò)誤率的樣本集稱(chēng)為檢驗(yàn)集或考試集。(2)對(duì)于未設(shè)計(jì)好的分類(lèi)器,需將樣本分成兩個(gè)部分,即分為設(shè)計(jì)集和檢驗(yàn)集,分別用以設(shè)計(jì)分類(lèi)器和估計(jì)錯(cuò)誤率,用來(lái)設(shè)計(jì)分類(lèi)器的樣本集稱(chēng)為設(shè)計(jì)集。1估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn):無(wú)偏性,有效性,一致性
13、無(wú)偏性:E(θ)=θ有效性:D(θ)小,更有效一致性:樣本數(shù)趨于無(wú)窮時(shí),依概率趨于θ:1^^本章小結(jié)應(yīng)用統(tǒng)計(jì)決策理論設(shè)計(jì)分類(lèi)器,當(dāng)概率密度函數(shù)未知時(shí),首先要對(duì)它進(jìn)行估計(jì),這就將模式識(shí)別問(wèn)題轉(zhuǎn)化為概率密度函數(shù)估計(jì)問(wèn)題,如果這個(gè)估計(jì)問(wèn)題可以很好的解決,則模式識(shí)別相應(yīng)得到解決。在實(shí)際應(yīng)用中,當(dāng)樣本數(shù)比較有限時(shí),并不能保證估計(jì)出的概率密度函數(shù)能很好的反應(yīng)真實(shí)情況,因此也不能對(duì)在此基礎(chǔ)上設(shè)計(jì)的分類(lèi)器的性能有充分的信心??梢?jiàn)應(yīng)用統(tǒng)計(jì)決策理論設(shè)計(jì)最優(yōu)分類(lèi)器的前提應(yīng)該是,對(duì)先驗(yàn)概率和類(lèi)概率密度函數(shù)有充分的先驗(yàn)知識(shí),或者有足夠多的樣本,可以較好地進(jìn)行概率密
14、度估計(jì)。1