資源描述:
《樸素貝葉斯分類模型.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、兩種最廣泛的分類模型——決策樹模型和樸素貝葉斯模型。該模型是由貝葉斯公式延伸而來。講到貝葉斯公式先要看條件概率公式該公式說明了如何計(jì)算已知B發(fā)生的前提下A還要發(fā)生的概率。A和B是隨機(jī)事件,是否獨(dú)立事件都適合這個(gè)公式。舉個(gè)例子比喻就是你宿舍哥們?cè)诒睅熣伊藗€(gè)女朋友,之后分手了,那么在他已經(jīng)在北師成功一次的條件下再次去北師找女朋友成功的概率。如果是獨(dú)立事件呢,那就是問在他分手之后,你去北師找女朋友成功的概率(在他不參與指導(dǎo)的前提下)跟他找女朋友是兩碼子事。回正題,之后出場(chǎng)了貝葉斯公式公式很簡(jiǎn)單,但是該公式真的
2、超級(jí)有用,它揭示了在某種未發(fā)生條件下和已發(fā)生條件下概率的計(jì)算關(guān)系,即根據(jù)B發(fā)生條件下A發(fā)生的概率可以推理出A發(fā)生下B發(fā)生的概率。在真實(shí)生活中我們很難獲得P(B
3、A)的概率,但是根據(jù)我們已知的P(A
4、B)就可以獲得它,所以該定理的用途十分廣大,可以用作數(shù)據(jù)的預(yù)測(cè)分類等。貝葉斯分類算法有很多如樸素貝葉斯算法,TAN算法等樸素貝葉斯是一種很簡(jiǎn)單的分類思想,對(duì)于給出的帶分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大就認(rèn)為該待分類項(xiàng)屬于哪個(gè)類別。簡(jiǎn)單點(diǎn)說,就是你在學(xué)院路上發(fā)現(xiàn)一個(gè)學(xué)生摸樣的美女,讓你猜
5、這美女是哪的。大家十有八九會(huì)猜是北師的,因?yàn)楸睅熡忻琅母怕矢?,在沒有其他更多信息的條件下,我們就將這個(gè)美女分類到了北師里。這就是樸素貝葉斯的思想。樸素貝葉斯分類的正式定義如下:?????1、設(shè)為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。?????2、有類別集合。?????3、計(jì)算。?????4、如果,則。對(duì)于貝葉斯的分類步驟說明如下,那病毒檢測(cè)分類,對(duì)于一個(gè)病毒的定義可能會(huì)是包含多個(gè)向量的一個(gè)病毒的特征就是一個(gè)X,它包含N個(gè)特征向量,而對(duì)于學(xué)習(xí)集即N++個(gè)各種病毒樣本集可以分類為M個(gè)分類Y1,Y2.
6、...。為了將某一個(gè)病毒樣本放入這M個(gè)類中,我們必須按個(gè)計(jì)算P(Y1
7、X),P(Y2
8、X)等N個(gè)計(jì)算,并找出其中最大的然后這個(gè)樣本就歸類完了。但是我們?nèi)绾斡?jì)算P(Y1
9、X)呢,我如何知道這個(gè)病毒出現(xiàn)的狀況下,它是Y1類病毒的概率呢。這就用到了貝葉斯公式了,根據(jù)貝葉斯公式我們可以得知,P(Yi
10、X)=P(X
11、Yi)*P(Yi)/P(X),由于對(duì)于每個(gè)概率都要除以一個(gè)P(X)然后再比較大小,所以沒有影響,關(guān)鍵的影響在于分子,又因?yàn)閄是含有N個(gè)特征向量的空間,樸素貝葉斯分類器認(rèn)為每個(gè)向量對(duì)于一個(gè)病毒的概率影響
12、是相互獨(dú)立的所以分子就中的乘項(xiàng)可以分解為:P(N1
13、Yi)*P(N2
14、Yi)*......*P(Yi)。也就是說我只需要計(jì)算出每一個(gè)特征向量在某一種分類的累乘然后乘以這個(gè)分類的概率。這樣算出的最大值所在的分類則為需要的分類。再捋一捋哈,也就是說如果我要想將一個(gè)未知的病毒分類,那么我需要計(jì)算每個(gè)特征在每個(gè)類別中的特征出現(xiàn)的概率的累乘然后乘以該分類出現(xiàn)的概率,最后選取最大的則為該分類。貝葉斯的重要和利害在于把先驗(yàn)概率改成了后驗(yàn)概率,給力啊。