資源描述:
《貝葉斯分類器ppt課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、貝葉斯分類器劉振峰內(nèi)容數(shù)學(xué)知識(shí)幾種常用的決策準(zhǔn)則判別函數(shù)、決策面與分類器設(shè)計(jì)1.概率論基本知識(shí)確定事件:概念是確定的,發(fā)生也是確定的;隨機(jī)事件:概念是確定的,發(fā)生是不確定的;模糊事件:概念本身就不確定。隨機(jī)變量隨機(jī)變量:隨機(jī)事件的數(shù)量表示;離散隨機(jī)變量:取值為離散的隨機(jī)變量;連續(xù)隨機(jī)變量:取值為連續(xù)的隨機(jī)變量;頻率和概率頻率:試驗(yàn)在相同的條件下重復(fù)N次,其中M次事件A發(fā)生,則A發(fā)生的頻率為:fN(A)=M/N;概率:當(dāng)N很大時(shí),頻率會(huì)趨向一個(gè)穩(wěn)定值,稱為A的概率:聯(lián)合概率和條件概率聯(lián)合概率:設(shè)A,B是兩個(gè)隨機(jī)事件,A和B同時(shí)發(fā)生的概率稱為聯(lián)合概率,記為:P(A,B)
2、;條件概率:在B事件發(fā)生的條件下,A事件發(fā)生的概率稱為條件概率,記為:P(A
3、B);乘法定理:P(A
4、B)=P(A,B)/P(B)。概率密度函數(shù)概率分布函數(shù):設(shè)X為連續(xù)型隨機(jī)變量,定義分布函數(shù);F(x)=P(X≤x);概率密度函數(shù):給定X是隨機(jī)變量,如果存在一個(gè)非負(fù)函數(shù)f(x),使得對(duì)任意實(shí)數(shù)a,b(a
5、x)=P(x
6、cj)P(cj)P(x)先驗(yàn)概率P(cj)聯(lián)合概率P(x
7、cj)后驗(yàn)概率P(cj
8、x)先驗(yàn)概率P(cj)P(cj)代表還沒有訓(xùn)練數(shù)據(jù)前
9、,cj擁有的初始概率。P(cj)常被稱為cj的先驗(yàn)概率(priorprobability),它反映了我們所擁有的關(guān)于cj是正確分類機(jī)會(huì)的背景知識(shí),它應(yīng)該是獨(dú)立于樣本的。如果沒有這一先驗(yàn)知識(shí),那么可以簡(jiǎn)單地將每一候選類別賦予相同的先驗(yàn)概率。不過通常我們可以用樣例中屬于cj的樣例數(shù)
10、cj
11、比上總樣例數(shù)
12、D
13、來近似,即聯(lián)合概率P(x
14、cj)聯(lián)合概率是指當(dāng)已知類別為cj的條件下,看到樣本x出現(xiàn)的概率。若設(shè)x=則P(x
15、cj)=P(a1,a2…am
16、cj)后驗(yàn)概率P(cj
17、x)即給定數(shù)據(jù)樣本x時(shí)cj成立的概率,而這正是我們所感興趣的P(cj
18、x)被稱為C的
19、后驗(yàn)概率(posteriorprobability),因?yàn)樗从沉嗽诳吹綌?shù)據(jù)樣本x后cj成立的置信度2.幾種常用的決策準(zhǔn)則不同的決策規(guī)則反映了分類器設(shè)計(jì)者的不同考慮,對(duì)決策結(jié)果有不同的影響。其中最有代表性的是:基于最小錯(cuò)誤率的貝葉斯決策基于最小風(fēng)險(xiǎn)的貝葉斯決策額2.1基于最小錯(cuò)誤率的貝葉斯決策分類器中為什么會(huì)有錯(cuò)分類,在何種情況下會(huì)出現(xiàn)錯(cuò)分類?錯(cuò)分類的可能性會(huì)有多大?當(dāng)某一特征向量X只為某一類物體所特有,即對(duì)其作出決策是容易的,也不會(huì)出什么差錯(cuò)。問題在于出現(xiàn)模凌兩可的情況。此時(shí),任何決策都存在判錯(cuò)的可能性。條件概率:P(*
20、#)是條件概率的通用符號(hào),P(wk
21、X)是
22、表示在X出現(xiàn)條件下,樣本為wk類的概率?;谧钚″e(cuò)誤率的貝葉斯決策基于最小錯(cuò)誤概率的貝葉斯決策理論就是按后驗(yàn)概率的大小作判決的(1)后驗(yàn)概率:如果則(2)如果則(3)似然比:如果則否則如果則否則(4)似然比寫成相應(yīng)的負(fù)對(duì)數(shù)形式例題1假設(shè)在某地區(qū)切片細(xì)胞中正常(w1)和異常(w2)兩類的先驗(yàn)概率分別為p(w1)=0.9,p(w2)=0.1。現(xiàn)有一待識(shí)別細(xì)胞呈現(xiàn)出狀態(tài)x,由其類條件概率密度分布曲線查的p(x
23、w1)=0.2,p(x
24、w2)=0.4,試對(duì)細(xì)胞x進(jìn)行分類。例題1解答利用貝葉斯公式,分別計(jì)算出狀態(tài)為x時(shí)w1與w2的后驗(yàn)概率基于最小錯(cuò)誤率的貝葉斯決策的證明平均錯(cuò)
25、誤率:在觀測(cè)值可能取值的整個(gè)范圍內(nèi)錯(cuò)誤率的均值兩類判別情況當(dāng)p(w2
26、x)>p(w1
27、x)時(shí)決策為w2,對(duì)觀測(cè)值x有p(w1
28、x)概率的錯(cuò)誤率R1:做出w1決策的所有觀測(cè)值區(qū)域,條件錯(cuò)誤概率為p(w2
29、x)R2:條件錯(cuò)誤概率為p(w1
30、x)。因此平均錯(cuò)誤率p(e)可表示成在R1內(nèi)任一個(gè)x值都有p(w2
31、x)
32、x),在R2區(qū)內(nèi)任一個(gè)x值都有p(w1
33、x)
34、x)錯(cuò)誤率在每個(gè)x值處都取小者,因而平均錯(cuò)誤率p(e)也必然達(dá)到最小,這就證明了按(2-2)式作出的決策,其平均錯(cuò)誤率為最小。p(e)也可以(2-8)式寫成錯(cuò)誤率為圖中兩個(gè)劃線部分之和,對(duì)應(yīng)的錯(cuò)誤
35、率區(qū)域面積為最小。2.2基于最小風(fēng)險(xiǎn)的貝葉斯決策是錯(cuò)誤率最小并不一定是一個(gè)普遍適用的最佳選擇一個(gè)與損失有關(guān)聯(lián)的,更為廣泛的概念—風(fēng)險(xiǎn)觀測(cè)樣本x實(shí)屬類別j,而被判為狀態(tài)i時(shí)所造成的損失,Ri則表示了觀測(cè)值x被判為i類時(shí)損失的均值分類則依據(jù)Ri,(i=1,...,c)中的最小值,即最小風(fēng)險(xiǎn)來定。例:病理切片w1表示病理切片正常w2表示病例切片異常p(w1
36、x)與p(w2
37、x)分別表示了兩種可能性的大小定義:自然狀態(tài):指待識(shí)別對(duì)象的類別狀態(tài)空間:由所有自然狀態(tài)所組成的空間決策:不僅包括根據(jù)觀測(cè)值將樣本劃歸為哪一類別(狀態(tài)),還可包括其他決策,如"拒絕"等決策空間:有所