資源描述:
《樸素貝葉斯分類matlab實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、實(shí)驗(yàn)二樸素貝葉斯分類一、實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)實(shí)驗(yàn),加深對(duì)統(tǒng)計(jì)判決與概率密度估計(jì)基本思想、方法的認(rèn)識(shí),了解影響B(tài)ayes分類器性能的因素,掌握基于Bayes決策理論的隨機(jī)模式分類的原理和方法。二、實(shí)驗(yàn)內(nèi)容設(shè)計(jì)Bayes決策理論的隨機(jī)模式分類器,用matlab實(shí)現(xiàn)。三、方法手段Bayes分類器的基本思想是依據(jù)類的概率、概密,按照某種準(zhǔn)則使分類結(jié)果從統(tǒng)計(jì)上講是最佳的。換言之,根據(jù)類的概率、概密將模式空間劃分成若干個(gè)子空間,在此基礎(chǔ)上形成模式分類的判決規(guī)則。準(zhǔn)則函數(shù)不同,所導(dǎo)出的判決規(guī)則就不同,分類結(jié)果也不同。使用哪種準(zhǔn)則
2、或方法應(yīng)根據(jù)具體問(wèn)題來(lái)確定。四、Bayes算法樸素貝葉斯分類或簡(jiǎn)單貝葉斯分類的工作過(guò)程如下:(1)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量表示,分別描述對(duì)n個(gè)屬性A1,A2,…An樣本的n個(gè)度量。(2)假定有m個(gè)類C1,C2,…Cm。給定一個(gè)未知的數(shù)據(jù)樣本X(即沒(méi)有類標(biāo)號(hào)),分類法將預(yù)測(cè)X屬于具有最高后驗(yàn)概率(條件X下)的類。即是說(shuō),樸素貝葉斯分類將未知的樣本分配給類Ci,當(dāng)且僅當(dāng)(2.1)這樣,最大化。其最大的類Ci稱為最大后驗(yàn)假定。根據(jù)貝葉斯定理,(2.2)(3)由于P(X)對(duì)于所有類為常數(shù),只需要最大即可。如果
3、類的先驗(yàn)概率未知,則通常假定這些類是等概率的,即P(C1)=P(C2)=…=P(Cm)。并據(jù)此只對(duì)最大化。否則,最大化。注意,類的先驗(yàn)概率可以用計(jì)算其中si是類Ci中的訓(xùn)練樣本數(shù),而s是訓(xùn)練樣本總數(shù)。(4)給定具有許多屬性的數(shù)據(jù)集,計(jì)算的開銷可能非常大。為降低計(jì)算的開銷,可以做類條件獨(dú)立的樸素假定。給定樣本的類標(biāo)號(hào),假定屬性值相互條件獨(dú)立,即在屬性間,不存在依賴關(guān)系。這樣,(2.3)概率,,…可以由訓(xùn)練樣本估值,其中1)如果Ak是分類屬性,則,其中sik是在屬性Ak上具有值xk的類Ci的樣本數(shù),而si是Ci
4、中的訓(xùn)練樣本數(shù)。2)如果Ak是連續(xù)值屬性,則通常假定該屬性服從高斯分布,因而,(2.4)其中,給定類Ci的訓(xùn)練樣本屬性Ak的值,是屬性Ak的高斯密度函數(shù),而分別為平均值和標(biāo)準(zhǔn)差。(5)為對(duì)未知樣本X分類,對(duì)每個(gè)類Ci,計(jì)算。樣本X被指派到類Ci,當(dāng)且僅當(dāng)換言之,X被指派到其最大的類Ci。例使用樸素貝葉斯分類預(yù)測(cè)類標(biāo)號(hào):RIDAgeIncomeStudentCredit_ratingClass:buys_computer1<=30HighNoFairNo2<=30HighNoExcellentNo331…40
5、HighNoFairYes4>40MediumNoFairYes5>40LowYesFairYes6>40LowYesExcellentNo731…40LowYesExcellentYes8<=30MediumNoFairNo9<=30LowYesFairYes10>40MediumYesFairYes11<=30MediumYesExcellentYes1231…40MediumNoExcellentYes1331…40HighYesFairYes14>40MediumNoExcellentNo給定與判定
6、樹歸納相同的訓(xùn)練數(shù)據(jù),我們希望使用樸素貝葉斯分類預(yù)測(cè)一個(gè)未知樣本的類標(biāo)號(hào)。訓(xùn)練數(shù)據(jù)在表7.1中。數(shù)據(jù)樣本用屬性age,income,student和credit_rating描述。類標(biāo)號(hào)屬性buys_computer具有兩個(gè)不同值(即(yes,no))。設(shè)C1對(duì)應(yīng)于類buys_computer=“yes”,而C2對(duì)應(yīng)于類buys_computer=“no”。我們希望分類的樣本為我們需要最大化,i=1,2。每個(gè)類的先驗(yàn)概率P(Ci)可以根據(jù)訓(xùn)練樣本計(jì)算:P(buys_computer=”yes”)=9/14=
7、0.643P(buys_computer=”no”)=5/14=0.357為計(jì)算,i=1,2,我們計(jì)算下面的條件概率:P(age=”<30”
8、buys_computer=”yes”)=2/9=0.222P(age=”<30”
9、buys_computer=”no”)=3/5=0.222P(income=”medium”
10、buys_computer=”yes”)=4/9=0.444P(income=”medium”
11、buys_computer=”no”)=2/5=0.400P(student=”yes”
12、buy
13、s_computer=”yes”)=6/9=0.667P(student=”yes”
14、buys_computer=”no”)=1/5=0.200P(credit_rating=”fair”
15、buys_computer=”yes”)=6/9=0.667P(credit_rating=”fair”
16、buys_computer=”no”)=2/5=0.400使用以上概率,我們得到:P(X
17、buys_computer=”