資源描述:
《貝葉斯分類器經(jīng)典講解》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、貝葉斯算法貝葉斯算法貝葉斯,英國數(shù)學(xué)家。1702年出生于倫敦,做過神甫。1742年成為英國皇家學(xué)會會員。1763年4月7日逝世。貝葉斯在數(shù)學(xué)方面主要研究概率論。他首先將歸納推理法用于概率論基礎(chǔ)理論,并創(chuàng)立了貝葉斯統(tǒng)計理論,對于統(tǒng)計決策函數(shù)、統(tǒng)計推斷、統(tǒng)計的估算等做出了貢獻(xiàn)。一個醫(yī)療診斷問題有兩個可選的假設(shè):病人有癌癥、病人無癌癥可用數(shù)據(jù)來自化驗結(jié)果:正+和負(fù)-有先驗知識:在所有人口中,患病率是0.008對確實有病的患者的化驗準(zhǔn)確率為98%,對確實無病的患者的化驗準(zhǔn)確率為97%總結(jié)如下P(cancer)=0.008,P(?cancer)=0.992P(+
2、can
3、cer)=0.98,P(-
4、cancer)=0.02P(+
5、?cancer)=0.03,P(-
6、?cancer)=0.97問題:假定有一個新病人,化驗結(jié)果為正,是否應(yīng)將病人斷定為有癌癥?求后驗概率P(cancer
7、+)和P(?cancer
8、+)貝葉斯定理解決上面的問題:已知某條件概率,如何得到兩個事件交換后的概率,也就是在已知P(A
9、B)的情況下如何求得P(B
10、A)。癌癥診斷正確診斷正確癌癥貝葉斯定理這里先解釋什么是條件概率在事情B發(fā)生的條件下A發(fā)生的條件概率,其求解公式為貝葉斯定理貝葉斯定理的意義在于,我們在生活中經(jīng)常遇到這種情況:我們可以很容易直接得出P(
11、A
12、B),P(B
13、A)則很難直接得出,但我們更關(guān)心P(B
14、A),貝葉斯定理就為我們打通從P(A
15、B)獲得P(B
16、A)的道路。貝葉斯定理下面不加證明給出貝葉斯定理公式機(jī)器語言中的定義表示在沒有訓(xùn)練數(shù)據(jù)前假設(shè)A擁有的初始概率。P(A)被稱為A的先驗概率.P(A
17、B)表示假設(shè)B成立時A的概率機(jī)器學(xué)習(xí)中我們關(guān)心的是P(B
18、A),即給定A時B的成立的概率,稱為B的后驗概率,貝葉斯定理的解釋P(B
19、A)隨著P(B)和P(A
20、B)的增長而增長,隨著P(A)的增長而減少,即如果A獨立于B時被觀察到的可能性越大,那么B對A的支持度越小.評分標(biāo)準(zhǔn)H:假設(shè)候選集表示使P(B
21、A)最
22、大的B值P(A)??_P(A
23、B)=樸素貝葉斯分類器1、條件獨立性給定類標(biāo)號y,樸素貝葉斯分類器在估計類條件概率時假設(shè)屬性之間條件獨立。條件獨立假設(shè)可以形式化的表達(dá)如下:其中每個訓(xùn)練樣本可用一個屬性向量X=(x1,x2,x3,?,xn)表示,各個屬性之間條件獨立。樸素貝葉斯分類器比如,對于一篇文章“Goodgoodstudy,Daydayup.”用一個文本特征向量來表示:x=(Good,good,study,Day,day,up)。一般各個詞語之間肯定不是相互獨立的,有一定的上下文聯(lián)系。但在樸素貝葉斯文本分類時,我們假設(shè)個單詞之間沒有聯(lián)系,可以用一個文本特征向
24、量來表示這篇文章,這就是“樸素”的來歷。樸素貝葉斯如何工作有了條件獨立假設(shè),就不必計算X和Y的每一種組合的類條件概率,只需對給定的Y,計算每個Xi的條件概率。后一種方法更實用,因為它不需要很大的訓(xùn)練集就能獲得較好的概率估計。估計分類屬性的條件概率P(Xi
25、Y=y)怎么計算呢?它一般根據(jù)類別y下包含屬性Xi的實例的比例來估計。以文本分類為例,Xi表示一個單詞,P(Xi
26、Y=y)=包含該類別下包含單詞的xi的文章總數(shù)/該類別下的文章總數(shù)。貝葉斯分類器舉例假設(shè)給定了如下訓(xùn)練樣本數(shù)據(jù),我們學(xué)習(xí)的目標(biāo)是根據(jù)給定的天氣狀況判斷你對PlayTennis這個請求的回答是Yes
27、還是No。DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11
28、SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo貝葉斯分類器打網(wǎng)球我們需要利用訓(xùn)練數(shù)據(jù)計算后驗概率P(Yes
29、x)和P(No
30、x),如果P(Yes
31、x)>P(No
32、x),那么新實例分類為Yes,否則為No。貝葉斯分類器舉例我們將使用此表的數(shù)據(jù),并結(jié)合樸素貝葉斯分類器來分類下面的新實例:貝葉斯分類器舉例DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotH
33、ighWeakNoD2SunnyHot