資源描述:
《樸素貝葉斯學(xué)習(xí)報(bào)告.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、本次報(bào)告主要學(xué)習(xí)一種基于貝葉斯定理的分類方法-樸素貝葉斯分類。從一般分類問(wèn)題,及貝葉斯原理,引出樸素貝葉斯分類原理,然后探討樸素貝葉斯在文本分類和情感分析領(lǐng)域的應(yīng)用,最后做了基于樸素貝葉斯分類的處理情感分析的demo程序。1樸素貝葉斯分類簡(jiǎn)介樸素貝葉斯分類是貝葉斯分類器的一種,貝葉斯分類算法是統(tǒng)計(jì)學(xué)的一種分類方法,利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類,其分類原理就是利用貝葉斯公式根據(jù)某類別的先驗(yàn)概率和對(duì)象特征的在該類別下的條件概率計(jì)算出類別的后驗(yàn)概率(即該對(duì)象屬于某一類的概率),然后選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。2分類問(wèn)題我們可能每天都在依據(jù)分類特征進(jìn)行形形色色的分類,比如
2、把開(kāi)豪車的人認(rèn)為很有錢,把東大校園帶眼鏡的老頭認(rèn)為是教授等,用直白的話講,就是將一些個(gè)體分到特定的類別中。那這個(gè)分類問(wèn)題有沒(méi)有一個(gè)邏輯上的定義呢?從數(shù)學(xué)的角度來(lái)說(shuō),可以定義如下:已知集合:C={?1,?2,…,??}和I={?1,?2,…,??},確定映射規(guī)則y=f(x),使得任意??∈?有且僅有一個(gè)??∈?使得??=?(??)成立。其中C叫做類別集合,其中每一個(gè)元素是一個(gè)類別,而I叫做項(xiàng)集合,其中每一個(gè)元素是一個(gè)待分類項(xiàng),f叫做分類器。分類算法的任務(wù)就是構(gòu)造分類器f,使得待分類項(xiàng)可以按照分類器進(jìn)行相應(yīng)分類。例如,醫(yī)生對(duì)病人進(jìn)行診斷就是一個(gè)典型的分類過(guò)程,任何一個(gè)醫(yī)生都無(wú)法直
3、接看到病人的病情,只能觀察病人表現(xiàn)出的癥狀和各種化驗(yàn)檢測(cè)數(shù)據(jù)來(lái)推斷病情,這時(shí)醫(yī)生就好比一個(gè)分類器,病人的病情狀況根據(jù)醫(yī)生來(lái)分類。3貝葉斯定理因?yàn)闃闼刎惾~斯分類是基于貝葉斯定理,于是我們得先談?wù)勜惾~斯定理。該定理是關(guān)于隨機(jī)事件A和B的條件概率的一則定理。?(?
4、?)?(?)P(A
5、B)=?(?)其中P(A
6、B)是在B發(fā)生的情況下A發(fā)生的可能性。貝葉斯定理之所以有用,是因?yàn)槲覀冊(cè)谏钪薪?jīng)常遇到這種情況:我們可以很容易直接得出P(A
7、B),P(B
8、A)則很難直接得出,但我們更關(guān)心P(B
9、A),貝葉斯定理就為我們打通從P(A
10、B)獲得P(B
11、A)的道路。這點(diǎn)很重要,樸素貝葉斯分類就是
12、基于這個(gè)來(lái)判斷數(shù)據(jù)所歸屬的類別。4樸素貝葉斯分類的原理現(xiàn)在可以談?wù)剺闼刎惾~斯分類了,它是一種十分簡(jiǎn)單的分類算法,叫它樸素貝葉斯分類是因?yàn)檫@種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。通俗來(lái)說(shuō),就好比這么個(gè)道理,你在街上看到一個(gè)黑人,我問(wèn)你猜這哥們哪里來(lái)的,你十有八九猜非洲。為什么呢?因?yàn)楹谌酥蟹侵奕说谋嚷首罡?,?dāng)然人家也可能是美洲人或亞洲人,但在沒(méi)有其它可用信息下,我們會(huì)選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。樸素貝葉斯分類的步驟如下:1、設(shè)x={?1,
13、?2,…,??}為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。2、有類別集合C={?1,?2,…,??}。3、計(jì)算所有類別的后驗(yàn)概率(即該對(duì)象屬于任意一類的概率)?(?1
14、?),?(?2
15、?),…,?(??
16、?)。4、找出具有最大后驗(yàn)概率的類:yk,即?(?1
17、?)=max{?(?1
18、?),?(?2
19、?),…,?(??
20、?)},則?∈??.從以上步驟,可以得知關(guān)鍵是:計(jì)算出給定樣本下的所屬類別概率,即?(??
21、?)。根據(jù)貝葉斯定理我們需要知道?(?
22、??)的概率。4.1樸素貝葉斯為什么是‘樸素’的?樸素的原因在于該方法對(duì)條件概率分布做了條件獨(dú)立性假設(shè)。這種假設(shè)使得樸素貝葉斯變得
23、異常簡(jiǎn)單。比如x由m個(gè)特征構(gòu)成,即x={?1,?2,…,??}對(duì)于?(?
24、?)=?(?1,?2,…??
25、?),如果每個(gè)特征aj有Sj個(gè)取值,1<=j<=m,y的取值有K個(gè),那么一共需要考慮的參數(shù)個(gè)數(shù)為?∏??.特別地,取SN?=1?j=S,那么參數(shù)個(gè)數(shù)為KS,當(dāng)維數(shù)N很大的時(shí)候,就會(huì)發(fā)生維數(shù)災(zāi)難。為了計(jì)算它,樸素貝葉斯法對(duì)它做了條件獨(dú)立性的假設(shè):假設(shè)用于分類的特征在類確定的條件下的條件獨(dú)立的,于是有:?(?
26、?)=?(?1
27、?)?(?2
28、?),…,?(??
29、?)現(xiàn)在參數(shù)就會(huì)大大降低為KSN(取Sj=S),因?yàn)?(?1
30、?)?(?2
31、?)…和?(??
32、?)之間是彼此條件獨(dú)立的。
33、4.2類別后驗(yàn)概率的計(jì)算那么現(xiàn)在回到分類的第三步驟,來(lái)計(jì)算類別后驗(yàn)概率,我們可以這么做:1、找到一個(gè)已知分類的待分類項(xiàng)集合,這個(gè)集合叫做訓(xùn)練樣本集。2、統(tǒng)計(jì)得到在各類別下各個(gè)特征屬性的條件概率估計(jì)。即?(?1
34、?1)?(?2
35、?1),…,?(??
36、?1);?(?1
37、?2),…,?(??
38、?2);…;?(?1
39、??),…,?(??
40、??).3、計(jì)算類別后驗(yàn)概率,3.1先根據(jù)貝葉斯定理有如下推導(dǎo):?(?
41、??)?(??)?(??
42、?)=?(?)因?yàn)榉帜笇?duì)于所有類別為常數(shù),所以我們只需計(jì)算?(?
43、??)?(?