基于樸素貝葉斯文本分類算法

基于樸素貝葉斯文本分類算法

ID:26873030

大小:53.31 KB

頁(yè)數(shù):17頁(yè)

時(shí)間:2018-11-29

基于樸素貝葉斯文本分類算法_第1頁(yè)
基于樸素貝葉斯文本分類算法_第2頁(yè)
基于樸素貝葉斯文本分類算法_第3頁(yè)
基于樸素貝葉斯文本分類算法_第4頁(yè)
基于樸素貝葉斯文本分類算法_第5頁(yè)
資源描述:

《基于樸素貝葉斯文本分類算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、基于樸素貝葉斯的文本分類算法摘要:常用的文本分類方法有支持向量機(jī)、K-近鄰算法和樸素貝葉斯。其中樸素貝葉斯具有容易實(shí)現(xiàn),運(yùn)行速度快的特點(diǎn),被廣泛使用。本文詳細(xì)介紹了樸素貝葉斯的基本原理,討論了兩種常見(jiàn)模型:多項(xiàng)式模型(MM)和伯努利模型(BM),實(shí)現(xiàn)了可運(yùn)行的代碼,并進(jìn)行了一些數(shù)據(jù)測(cè)試。關(guān)鍵字:樸素貝葉斯;文本分類TextClassificationAlgorithmBasedonNaiveBayesAuthor:soulmachineEmail:soulmachine@gmail.comBlog:www.yanjiuya

2、njiu.comAbstract:Usuallytherearethreemethodsfortextclassification:SVM、KNNandNa?veBayes.Na?veBayesiseasytoimplementandfast,soitiswidelyused.ThisarticleintroducedthetheoryofNa?veBayesanddiscussedtwopopularmodels:multinomialmodel(MM)andBernoullimodel(BM)indetails,imp

3、lementedrunnablecodeandperformedsomedatatests.Keywords:na?vebayes;textclassification第1章貝葉斯原理1.1貝葉斯公式設(shè)A、B是兩個(gè)事件,且P(A)>0,稱為在事件A發(fā)生的條件下事件B發(fā)生的條件概率。乘法公式?P(XYZ)=P(ZXY)P(YX)P(X)全概率公式?P(X)=P(XY1)+P(XY2)+…+P(XYn)貝葉斯公式在此處,貝葉斯公式,我們要用到的是以上公式,請(qǐng)讀者參考《概率論與數(shù)理統(tǒng)計(jì)(第五版)》的1.4節(jié)“條件概率”(這里將原

4、書中的A換成了X,B換成了Y),獲得更深的理解。1.2貝葉斯定理在分類中的應(yīng)用在分類(classification)問(wèn)題中,常常需要把一個(gè)事物分到某個(gè)類別。一個(gè)事物具有很多屬性,把它的眾多屬性看做一個(gè)向量,即x=(x1,x2,x3,…,xn),用x這個(gè)向量來(lái)代表這個(gè)事物。類別也是有很多種,用集合Y={y1,y2,…ym}表示。如果x屬于y1類別,就可以給x打上y1標(biāo)簽,意思是說(shuō)x屬于y1類別。這就是所謂的分類(Classification)。x的集合記為X,稱為屬性集。一般X和Y的關(guān)系是不確定的,你只能在某種程度上說(shuō)x有多

5、大可能性屬于類y1,比如說(shuō)x有80%的可能性屬于類y1,這時(shí)可以把X和Y看做是隨機(jī)變量,P(YX)稱為Y的后驗(yàn)概率(posteriorprobability),與之相對(duì)的,P(Y)稱為Y的先驗(yàn)概率(priorprobability)[2]。在訓(xùn)練階段,我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息,對(duì)X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(YX)。分類時(shí),來(lái)了一個(gè)實(shí)例x,在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Yx),其中最大的那個(gè)y,即為x所屬分類。根據(jù)貝葉斯公式,后驗(yàn)概率為在比較不同Y值的后驗(yàn)概率時(shí),分母P(X)總是常數(shù),因此可以忽略

6、。先驗(yàn)概率P(Y)可以通過(guò)計(jì)算訓(xùn)練集中屬于每一個(gè)類的訓(xùn)練樣本所占的比例容易地估計(jì)。我們來(lái)舉個(gè)簡(jiǎn)單的例子,讓讀者對(duì)上述思路有個(gè)形象的認(rèn)識(shí)[3]。考慮一個(gè)醫(yī)療診斷問(wèn)題,有兩種可能的假設(shè):(1)病人有癌癥。(2)病人無(wú)癌癥。樣本數(shù)據(jù)來(lái)自某化驗(yàn)測(cè)試,它也有兩種可能的結(jié)果:陽(yáng)性和陰性。假設(shè)我們已經(jīng)有先驗(yàn)知識(shí):在所有人口中只有0.008的人患病。此外,化驗(yàn)測(cè)試對(duì)有病的患者有98%的可能返回陽(yáng)性結(jié)果,對(duì)無(wú)病患者有97%的可能返回陰性結(jié)果。上面的數(shù)據(jù)可以用以下概率式子表示:P(cancer)=0.008,P(無(wú)cancer)=0.992P

7、(陽(yáng)性cancer)=0.98,P(陰性cancer)=0.02P(陽(yáng)性無(wú)cancer)=0.03,P(陰性無(wú)cancer)=0.97假設(shè)現(xiàn)在有一個(gè)新病人,化驗(yàn)測(cè)試返回陽(yáng)性,是否將病人斷定為有癌癥呢?在這里,Y={cancer,無(wú)cancer},共兩個(gè)類別,這個(gè)新病人是一個(gè)樣本,他有一個(gè)屬性陽(yáng)性,可以令x=(陽(yáng)性)。我們可以來(lái)計(jì)算各個(gè)類別的后驗(yàn)概率:P(cancer陽(yáng)性)=P(陽(yáng)性cancer)p(cancer)=0.980.008=0.0078P(無(wú)cancer陽(yáng)性)=P(陽(yáng)性無(wú)cancer)p(無(wú)cancer)=0.0

8、30.992=0.0298因此,應(yīng)該判斷為無(wú)癌癥。在這個(gè)例子中,類條件概率,P(cancer陽(yáng)性)和P(無(wú)cancer陽(yáng)性)直接告訴了我們。一般地,對(duì)類條件概率P(XY)的估計(jì),有樸素貝葉斯分類器和貝葉斯信念網(wǎng)絡(luò)兩種方法,這里介紹樸素貝葉斯分類器。1.3樸素貝葉斯分類器1、條件獨(dú)立性給定類標(biāo)號(hào)y,樸素貝

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。