樸素貝葉斯學(xué)習(xí)報(bào)告.pdf

樸素貝葉斯學(xué)習(xí)報(bào)告.pdf

ID:58314802

大?。?.02 MB

頁(yè)數(shù):9頁(yè)

時(shí)間:2020-09-07

樸素貝葉斯學(xué)習(xí)報(bào)告.pdf_第1頁(yè)
樸素貝葉斯學(xué)習(xí)報(bào)告.pdf_第2頁(yè)
樸素貝葉斯學(xué)習(xí)報(bào)告.pdf_第3頁(yè)
樸素貝葉斯學(xué)習(xí)報(bào)告.pdf_第4頁(yè)
樸素貝葉斯學(xué)習(xí)報(bào)告.pdf_第5頁(yè)
資源描述:

《樸素貝葉斯學(xué)習(xí)報(bào)告.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、本次報(bào)告主要學(xué)習(xí)一種基于貝葉斯定理的分類方法-樸素貝葉斯分類。從一般分類問(wèn)題,及貝葉斯原理,引出樸素貝葉斯分類原理,然后探討樸素貝葉斯在文本分類和情感分析領(lǐng)域的應(yīng)用,最后做了基于樸素貝葉斯分類的處理情感分析的demo程序。1樸素貝葉斯分類簡(jiǎn)介樸素貝葉斯分類是貝葉斯分類器的一種,貝葉斯分類算法是統(tǒng)計(jì)學(xué)的一種分類方法,利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類,其分類原理就是利用貝葉斯公式根據(jù)某類別的先驗(yàn)概率和對(duì)象特征的在該類別下的條件概率計(jì)算出類別的后驗(yàn)概率(即該對(duì)象屬于某一類的概率),然后選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。2分類問(wèn)題我們可能每天都在依據(jù)分類特征進(jìn)行形形色色的分類,比如

2、把開(kāi)豪車的人認(rèn)為很有錢,把東大校園帶眼鏡的老頭認(rèn)為是教授等,用直白的話講,就是將一些個(gè)體分到特定的類別中。那這個(gè)分類問(wèn)題有沒(méi)有一個(gè)邏輯上的定義呢?從數(shù)學(xué)的角度來(lái)說(shuō),可以定義如下:已知集合:C={?1,?2,…,??}和I={?1,?2,…,??},確定映射規(guī)則y=f(x),使得任意??∈?有且僅有一個(gè)??∈?使得??=?(??)成立。其中C叫做類別集合,其中每一個(gè)元素是一個(gè)類別,而I叫做項(xiàng)集合,其中每一個(gè)元素是一個(gè)待分類項(xiàng),f叫做分類器。分類算法的任務(wù)就是構(gòu)造分類器f,使得待分類項(xiàng)可以按照分類器進(jìn)行相應(yīng)分類。例如,醫(yī)生對(duì)病人進(jìn)行診斷就是一個(gè)典型的分類過(guò)程,任何一個(gè)醫(yī)生都無(wú)法直

3、接看到病人的病情,只能觀察病人表現(xiàn)出的癥狀和各種化驗(yàn)檢測(cè)數(shù)據(jù)來(lái)推斷病情,這時(shí)醫(yī)生就好比一個(gè)分類器,病人的病情狀況根據(jù)醫(yī)生來(lái)分類。3貝葉斯定理因?yàn)闃闼刎惾~斯分類是基于貝葉斯定理,于是我們得先談?wù)勜惾~斯定理。該定理是關(guān)于隨機(jī)事件A和B的條件概率的一則定理。?(?

4、?)?(?)P(A

5、B)=?(?)其中P(A

6、B)是在B發(fā)生的情況下A發(fā)生的可能性。貝葉斯定理之所以有用,是因?yàn)槲覀冊(cè)谏钪薪?jīng)常遇到這種情況:我們可以很容易直接得出P(A

7、B),P(B

8、A)則很難直接得出,但我們更關(guān)心P(B

9、A),貝葉斯定理就為我們打通從P(A

10、B)獲得P(B

11、A)的道路。這點(diǎn)很重要,樸素貝葉斯分類就是

12、基于這個(gè)來(lái)判斷數(shù)據(jù)所歸屬的類別。4樸素貝葉斯分類的原理現(xiàn)在可以談?wù)剺闼刎惾~斯分類了,它是一種十分簡(jiǎn)單的分類算法,叫它樸素貝葉斯分類是因?yàn)檫@種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。通俗來(lái)說(shuō),就好比這么個(gè)道理,你在街上看到一個(gè)黑人,我問(wèn)你猜這哥們哪里來(lái)的,你十有八九猜非洲。為什么呢?因?yàn)楹谌酥蟹侵奕说谋嚷首罡?,?dāng)然人家也可能是美洲人或亞洲人,但在沒(méi)有其它可用信息下,我們會(huì)選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。樸素貝葉斯分類的步驟如下:1、設(shè)x={?1,

13、?2,…,??}為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。2、有類別集合C={?1,?2,…,??}。3、計(jì)算所有類別的后驗(yàn)概率(即該對(duì)象屬于任意一類的概率)?(?1

14、?),?(?2

15、?),…,?(??

16、?)。4、找出具有最大后驗(yàn)概率的類:yk,即?(?1

17、?)=max{?(?1

18、?),?(?2

19、?),…,?(??

20、?)},則?∈??.從以上步驟,可以得知關(guān)鍵是:計(jì)算出給定樣本下的所屬類別概率,即?(??

21、?)。根據(jù)貝葉斯定理我們需要知道?(?

22、??)的概率。4.1樸素貝葉斯為什么是‘樸素’的?樸素的原因在于該方法對(duì)條件概率分布做了條件獨(dú)立性假設(shè)。這種假設(shè)使得樸素貝葉斯變得

23、異常簡(jiǎn)單。比如x由m個(gè)特征構(gòu)成,即x={?1,?2,…,??}對(duì)于?(?

24、?)=?(?1,?2,…??

25、?),如果每個(gè)特征aj有Sj個(gè)取值,1<=j<=m,y的取值有K個(gè),那么一共需要考慮的參數(shù)個(gè)數(shù)為?∏??.特別地,取SN?=1?j=S,那么參數(shù)個(gè)數(shù)為KS,當(dāng)維數(shù)N很大的時(shí)候,就會(huì)發(fā)生維數(shù)災(zāi)難。為了計(jì)算它,樸素貝葉斯法對(duì)它做了條件獨(dú)立性的假設(shè):假設(shè)用于分類的特征在類確定的條件下的條件獨(dú)立的,于是有:?(?

26、?)=?(?1

27、?)?(?2

28、?),…,?(??

29、?)現(xiàn)在參數(shù)就會(huì)大大降低為KSN(取Sj=S),因?yàn)?(?1

30、?)?(?2

31、?)…和?(??

32、?)之間是彼此條件獨(dú)立的。

33、4.2類別后驗(yàn)概率的計(jì)算那么現(xiàn)在回到分類的第三步驟,來(lái)計(jì)算類別后驗(yàn)概率,我們可以這么做:1、找到一個(gè)已知分類的待分類項(xiàng)集合,這個(gè)集合叫做訓(xùn)練樣本集。2、統(tǒng)計(jì)得到在各類別下各個(gè)特征屬性的條件概率估計(jì)。即?(?1

34、?1)?(?2

35、?1),…,?(??

36、?1);?(?1

37、?2),…,?(??

38、?2);…;?(?1

39、??),…,?(??

40、??).3、計(jì)算類別后驗(yàn)概率,3.1先根據(jù)貝葉斯定理有如下推導(dǎo):?(?

41、??)?(??)?(??

42、?)=?(?)因?yàn)榉帜笇?duì)于所有類別為常數(shù),所以我們只需計(jì)算?(?

43、??)?(?

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。