資源描述:
《《貝葉斯信念網(wǎng)絡(luò)》PPT課件》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、1BayesClassifier貝葉斯分類2021/8/2122021/8/21一、何謂貝葉斯分類?數(shù)據(jù)挖掘中以貝葉斯定理為基礎(chǔ),用于分類的技術(shù)有樸素貝葉斯分類和貝葉斯信念網(wǎng)絡(luò)兩種。樸素貝葉斯分類假定一個(gè)屬性值對給定類的影響?yīng)毩⒂谄渌麑傩缘闹?,即在屬性間不存在依賴關(guān)系,也因此稱為“樸素的”。貝葉斯信念網(wǎng)絡(luò)也可以用于分類,它是圖形模型。它優(yōu)于樸素貝葉斯,它能夠處理屬性子集間有依賴關(guān)系的分類。它采用監(jiān)督式的學(xué)習(xí)方式。二、基本知識32021/8/211、事件概率聯(lián)合概率(jointprobability)表示A事件和B事件同時(shí)發(fā)生的概率,P(A∩B)。邊際概率(marginalpr
2、obability)在A和B的樣本空間中,只看A或B的概率,稱之邊際概率。條件概率(conditionalprobability)在發(fā)生A的條件下,發(fā)生B的概率,稱為P(B
3、A)。贊成(B1)反對(B2)合計(jì)男性(A1)40120160女性(A2)103040合計(jì)501502004聯(lián)合概率:P(男性,贊成)=P(A1∩B1)=40/200=0.2邊際概率:P(贊成)=P(B1)=P(A1∩B1)+P(A2∩B1)=0.25條件概率:P(贊成
4、男性)=P(B1
5、A1)=P(A1∩B1)/P(A1)=0.252021/8/21舉例:2、乘法法則(Multiplicativerul
6、e)52021/8/213、獨(dú)立事件設(shè)事件A和事件B滿足以下條件:則稱A與B為『獨(dú)立事件』。三、貝葉斯定理6表示先驗(yàn)概率(Priorprobability)。表示后驗(yàn)概率(Posterioriprobability),先驗(yàn)概率是由以往的數(shù)據(jù)分析得到的。根據(jù)樣本數(shù)據(jù)得到更多的信息后,對其重新修正,即是后驗(yàn)概率。2021/8/217例:旅客搭乘飛機(jī)必須經(jīng)電子儀器檢查是否身上攜帶金屬物品。如果攜帶金屬,儀器會發(fā)出聲音的概率是97%,但身上無金屬物品儀器會發(fā)出聲音的概率是5%。已知一般乘客身上帶有金屬物品的概率是30%,若某旅客經(jīng)過儀器檢查時(shí)發(fā)出聲音,請問他身上有金屬物品的概率是多少
7、?2021/8/21解:設(shè)C1=“有金屬物”,X=“儀器會發(fā)聲”,則四、樸素貝葉斯分類的工作過程2021/8/2182021/8/2192021/8/21102021/8/21112021/8/2112五、樸素貝氏分類的實(shí)例辦信用卡意愿:項(xiàng)目性別年齡學(xué)生身分收入辦卡1男>45否高會2女31~45否高會3女20~30是低會4男<20是低不會5女20~30是中不會6女20~30否中會7女31~45否高會8男31~45是中不會9男31~45否中會10女<20是低會132021/8/21類屬性14解:首先根據(jù)訓(xùn)練樣本計(jì)算各屬性相對于不同分類結(jié)果的條件概率:P(辦卡)=7/10P(不辦
8、卡)=3/10P(女性
9、辦卡)=5/7P(女性
10、不辦卡)=1/3P(年齡=31~45
11、辦卡)=3/7P(年齡=31~45
12、不辦卡)=1/3P(學(xué)生=否
13、辦卡)=5/7P(學(xué)生=否
14、不辦卡)=0/3P(收入=中
15、辦卡)=2/7P(收入=中
16、不辦卡)=2/32021/8/21判斷:X=(女性,年齡介于31~45之間,不具學(xué)生身份,收入中等)會不會辦理信用卡。其次,再應(yīng)用樸素貝氏分類器進(jìn)行類別預(yù)測:計(jì)算P(辦卡)P(女性
17、辦卡)P(年齡31~45
18、辦卡)P(不是學(xué)生
19、辦卡)P(收入中
20、辦卡)=15/343≈0.044P(不辦卡)P(女性
21、不辦卡)P(年齡31~45
22、不辦卡)P(不是
23、學(xué)生
24、不辦卡)P(收入中等
25、不辦卡)=00.044>0152021/8/21162021/8/21訓(xùn)練樣本中對于(女性,年齡介于31~45之間,不具學(xué)生身份,收入中等)的個(gè)人,按照樸素貝葉斯分類會將其分到辦信用卡一類中。辦卡的概率是(0.044)/(0.044+0)=1(正規(guī)化分類的結(jié)果P(會)/(P(會)+P(不會))。貝葉斯分類的優(yōu)缺點(diǎn):優(yōu)點(diǎn):計(jì)算速度最快的演算法;規(guī)則清楚易懂;獨(dú)立事件的假設(shè),大多數(shù)問題上不至于發(fā)生太大偏誤;缺點(diǎn):僅適用于類別變量;僅能應(yīng)用于分類問題;假設(shè)變量間為獨(dú)立互不影響,因此使用時(shí)需要謹(jǐn)慎分析變量間的相關(guān)性。2021/8/2117六、貝葉斯信念網(wǎng)絡(luò)
26、樸素貝葉斯分類假定類條件獨(dú)立,即給定樣本的類標(biāo)號,屬性的值相互條件獨(dú)立。但在實(shí)踐中,變量之間的依賴可能存在。貝葉斯信念網(wǎng)絡(luò)說明聯(lián)合條件概率分布,它允許在變量的子集間定義類條件獨(dú)立性。它提供一種因果關(guān)系的圖形。2021/8/2118例如,得肺癌受其家族肺癌史的影響,也受是否吸煙的影響。2021/8/2119有向無環(huán)圖條件概率圖概率依賴雙親或直接前驅(qū)后繼非后繼獨(dú)立節(jié)點(diǎn):隨機(jī)變量一個(gè)簡單的例子由左圖給出,它對下雨(R)引起草地變濕(W)建模。天下雨的可能性為40%,并且下雨時(shí)草地變濕的可能性為90%;也許10