樸素貝葉斯分類算法及其MapReduce實(shí)現(xiàn).docx

樸素貝葉斯分類算法及其MapReduce實(shí)現(xiàn).docx

ID:57286180

大小:40.44 KB

頁(yè)數(shù):7頁(yè)

時(shí)間:2020-08-09

樸素貝葉斯分類算法及其MapReduce實(shí)現(xiàn).docx_第1頁(yè)
樸素貝葉斯分類算法及其MapReduce實(shí)現(xiàn).docx_第2頁(yè)
樸素貝葉斯分類算法及其MapReduce實(shí)現(xiàn).docx_第3頁(yè)
樸素貝葉斯分類算法及其MapReduce實(shí)現(xiàn).docx_第4頁(yè)
樸素貝葉斯分類算法及其MapReduce實(shí)現(xiàn).docx_第5頁(yè)
資源描述:

《樸素貝葉斯分類算法及其MapReduce實(shí)現(xiàn).docx》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、最近發(fā)現(xiàn)很多公司招聘數(shù)據(jù)挖掘的職位都提到貝葉斯分類,其實(shí)我不太清楚他們是要求理解貝葉斯分類算法,還是要求只需要通過(guò)工具(SPSS,SAS,Mahout)使用貝葉斯分類算法進(jìn)行分類。反正不管是需求什么都最好是了解其原理,才能知其然,還知其所以然。我盡量簡(jiǎn)單的描述貝葉斯定義和分類算法,復(fù)雜而有全面的描述參考“數(shù)據(jù)挖掘:概念與技術(shù)”。貝葉斯是一個(gè)人,叫(ThomasBayes),下面這哥們就是。本文介紹了貝葉斯定理,樸素貝葉斯分類算法及其使用MapReduce實(shí)現(xiàn)。貝葉斯定理首先了解下貝葉斯定理PHX=PXHP(H)P(X)是不是有感覺(jué)都是符號(hào)

2、看起來(lái)真復(fù)雜,我們根據(jù)下圖理解貝葉斯定理。這里D是所有顧客(全集),H是購(gòu)買H商品的顧客,X是購(gòu)買X商品的顧客。自然X∩H是即購(gòu)買X又購(gòu)買H的顧客。P(X)指先驗(yàn)概率,指所有顧客中購(gòu)買X的概率。同理P(H)指的是所有顧客中購(gòu)買H的概率,見(jiàn)下式。PX=XDPH=HDP(H

3、X)指后驗(yàn)概率,在購(gòu)買X商品的顧客,購(gòu)買H的概率。同理P(X

4、H)指的是購(gòu)買H商品的顧客購(gòu)買X的概率,見(jiàn)下式。PH

5、X=X∩HXPX

6、H=X∩HH將這些公式帶入上面貝葉斯定理自然就成立了。樸素貝葉斯分類分類算法有很多,基本上決策樹(shù),貝葉斯分類和神經(jīng)網(wǎng)絡(luò)是齊名的。樸素貝葉斯

7、分類假定一個(gè)屬性值對(duì)給定分類的影響?yīng)毩⒂谄渌麑傩灾怠C枋觯哼@里有個(gè)例子假定我們有一個(gè)顧客X(age=middle,income=high,sex=man):·年齡(age)取值可以是:?。▂oung),中(middle),大(old)·收入(income)取值可以是:低(low),中(average),高(high)·性別(sex)取值可以是:男(man),女(woman)其選擇電腦顏色的分類標(biāo)號(hào)H:白色(white),藍(lán)色(blue),粉色(pink)問(wèn)題:用樸素貝葉斯分類法預(yù)測(cè)顧客X,選擇哪個(gè)顏色的分類標(biāo)號(hào),也就是預(yù)測(cè)X屬于具有最高后

8、驗(yàn)概率的分類。解答:Step1也就是說(shuō)我們要分別計(jì)算X選擇分類標(biāo)號(hào)為白色(white),藍(lán)色(blue),粉色(pink)的后驗(yàn)概率,然后進(jìn)行比較取其中最大值。根據(jù)貝葉斯定理PHwhiteX=PXHwhiteP(Hwhite)P(X)同理PHblueX=PXHblueP(Hblue)P(X)PHpinkX=PXHpinkP(Hpink)P(X)Step2其中P(X)為常數(shù)。D為全集元組數(shù),Hwhite,D為全集中分類標(biāo)號(hào)為white的元組數(shù)。PHwhite=Hwhite,DD同理PHblue=Hblue,DDPHpink=Hpink,DD

9、Step3那么只需計(jì)算PXHwhite就可以了。PXHblue,PXHpink同理就不在進(jìn)行闡述。對(duì)于許多屬性的集,PXHwhite有可能是缺失的,對(duì)于多個(gè)X的計(jì)算開(kāi)銷可能非常大,那么根據(jù)樸素貝葉斯分類假定一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩灾怠XHwhite=k=13Px1Hwhite=Pxage=middleHwhite×Pxincome=highHwhite×Pxsex=manHwhite可以很容易的由訓(xùn)練元組得出:Pxage=middleHwhitePxincome=highHwhitePxsex=manHwhiteStep4

10、PHwhiteX,,PHblueX,,PHpinkX后驗(yàn)概率中最大的,那么它的分類標(biāo)號(hào)就是X的分類標(biāo)號(hào)。改進(jìn)1,目前X(年齡=中,收入=高,性別=男)中的屬性都是分類屬性,而不是連續(xù)值屬性,我們要處理連續(xù)值屬性可以使用如下方法:Pxage=middleHwhite=gxage=middle,μwhite,σwhite=12πσe-(x-μ)22σ2連續(xù)值屬性xage=middle服從均值為μ,標(biāo)準(zhǔn)差為σ的高斯分布。2,如果遇到零概率值怎么辦?比如在訓(xùn)練元組中Pxsex=manHwhite為零,可以使用拉普拉斯校準(zhǔn)的方法避免該問(wèn)題。樸素貝葉

11、斯分類的MapReduce實(shí)現(xiàn)我們通過(guò)MapReduce計(jì)算X(age=middle,income=high,sex=man)的分類標(biāo)號(hào)。根據(jù)上面的推導(dǎo),P(X)為常數(shù)只需計(jì)算PXHwhiteP(Hwhite),PXHblueP(Hblue),PXHpinkP(Hpink)最大值即可。源文件為old:low:man:bluemiddle:high:man:whiteold:low:man:blueyonng:high:woman:whiteyoung:low:woman:pink那么如何使用一次MapReduce就計(jì)算出P(Hwhite)

12、,PxageHwhite,PxincomeHwhite,PxsexHwhite等等MapClass為publicstaticclassMapClassextendsMapReduceBasei

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。