資源描述:
《貝葉斯分類器經(jīng)典講解》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、貝葉斯算法貝葉斯算法貝葉斯,英國(guó)數(shù)學(xué)家。1702年出生于倫敦,做過神甫。1742年成為英國(guó)皇家學(xué)會(huì)會(huì)員。1763年4月7日逝世。貝葉斯在數(shù)學(xué)方面主要研究概率論。他首先將歸納推理法用于概率論基礎(chǔ)理論,并創(chuàng)立了貝葉斯統(tǒng)計(jì)理論,對(duì)于統(tǒng)計(jì)決策函數(shù)、統(tǒng)計(jì)推斷、統(tǒng)計(jì)的估算等做出了貢獻(xiàn)。一個(gè)醫(yī)療診斷問題有兩個(gè)可選的假設(shè):病人有癌癥、病人無癌癥可用數(shù)據(jù)來自化驗(yàn)結(jié)果:正+和負(fù)-有先驗(yàn)知識(shí):在所有人口中,患病率是0.008對(duì)確實(shí)有病的患者的化驗(yàn)準(zhǔn)確率為98%,對(duì)確實(shí)無病的患者的化驗(yàn)準(zhǔn)確率為97%總結(jié)如下P(cancer)=0.008,P(?cancer)=0.992P(+
2、can
3、cer)=0.98,P(-
4、cancer)=0.02P(+
5、?cancer)=0.03,P(-
6、?cancer)=0.97問題:假定有一個(gè)新病人,化驗(yàn)結(jié)果為正,是否應(yīng)將病人斷定為有癌癥?求后驗(yàn)概率P(cancer
7、+)和P(?cancer
8、+)貝葉斯定理解決上面的問題:已知某條件概率,如何得到兩個(gè)事件交換后的概率,也就是在已知P(A
9、B)的情況下如何求得P(B
10、A)。癌癥診斷正確診斷正確癌癥貝葉斯定理這里先解釋什么是條件概率在事情B發(fā)生的條件下A發(fā)生的條件概率,其求解公式為貝葉斯定理貝葉斯定理的意義在于,我們?cè)谏钪薪?jīng)常遇到這種情況:我們可以很容易直接得出P(
11、A
12、B),P(B
13、A)則很難直接得出,但我們更關(guān)心P(B
14、A),貝葉斯定理就為我們打通從P(A
15、B)獲得P(B
16、A)的道路。貝葉斯定理下面不加證明給出貝葉斯定理公式機(jī)器語言中的定義表示在沒有訓(xùn)練數(shù)據(jù)前假設(shè)A擁有的初始概率。P(A)被稱為A的先驗(yàn)概率.P(A
17、B)表示假設(shè)B成立時(shí)A的概率機(jī)器學(xué)習(xí)中我們關(guān)心的是P(B
18、A),即給定A時(shí)B的成立的概率,稱為B的后驗(yàn)概率,貝葉斯定理的解釋P(B
19、A)隨著P(B)和P(A
20、B)的增長(zhǎng)而增長(zhǎng),隨著P(A)的增長(zhǎng)而減少,即如果A獨(dú)立于B時(shí)被觀察到的可能性越大,那么B對(duì)A的支持度越小.評(píng)分標(biāo)準(zhǔn)H:假設(shè)候選集表示使P(B
21、A)最
22、大的B值P(A)??_P(A
23、B)=樸素貝葉斯分類器1、條件獨(dú)立性給定類標(biāo)號(hào)y,樸素貝葉斯分類器在估計(jì)類條件概率時(shí)假設(shè)屬性之間條件獨(dú)立。條件獨(dú)立假設(shè)可以形式化的表達(dá)如下:其中每個(gè)訓(xùn)練樣本可用一個(gè)屬性向量X=(x1,x2,x3,?,xn)表示,各個(gè)屬性之間條件獨(dú)立。樸素貝葉斯分類器比如,對(duì)于一篇文章“Goodgoodstudy,Daydayup.”用一個(gè)文本特征向量來表示:x=(Good,good,study,Day,day,up)。一般各個(gè)詞語之間肯定不是相互獨(dú)立的,有一定的上下文聯(lián)系。但在樸素貝葉斯文本分類時(shí),我們假設(shè)個(gè)單詞之間沒有聯(lián)系,可以用一個(gè)文本特征向
24、量來表示這篇文章,這就是“樸素”的來歷。樸素貝葉斯如何工作有了條件獨(dú)立假設(shè),就不必計(jì)算X和Y的每一種組合的類條件概率,只需對(duì)給定的Y,計(jì)算每個(gè)Xi的條件概率。后一種方法更實(shí)用,因?yàn)樗恍枰艽蟮挠?xùn)練集就能獲得較好的概率估計(jì)。估計(jì)分類屬性的條件概率P(Xi
25、Y=y)怎么計(jì)算呢?它一般根據(jù)類別y下包含屬性Xi的實(shí)例的比例來估計(jì)。以文本分類為例,Xi表示一個(gè)單詞,P(Xi
26、Y=y)=包含該類別下包含單詞的xi的文章總數(shù)/該類別下的文章總數(shù)。貝葉斯分類器舉例假設(shè)給定了如下訓(xùn)練樣本數(shù)據(jù),我們學(xué)習(xí)的目標(biāo)是根據(jù)給定的天氣狀況判斷你對(duì)PlayTennis這個(gè)請(qǐng)求的回答是Yes
27、還是No。DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11
28、SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo貝葉斯分類器打網(wǎng)球我們需要利用訓(xùn)練數(shù)據(jù)計(jì)算后驗(yàn)概率P(Yes
29、x)和P(No
30、x),如果P(Yes
31、x)>P(No
32、x),那么新實(shí)例分類為Yes,否則為No。貝葉斯分類器舉例我們將使用此表的數(shù)據(jù),并結(jié)合樸素貝葉斯分類器來分類下面的新實(shí)例:貝葉斯分類器舉例DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotH
33、ighWeakNoD2SunnyHot