資源描述:
《貝葉斯分類器在機(jī)器學(xué)習(xí)中探究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、貝葉斯分類器在機(jī)器學(xué)習(xí)中探究摘要:貝葉斯分類器作為機(jī)器學(xué)習(xí)中的一種分類算法,在有些方面有著其優(yōu)越的一面,在機(jī)器學(xué)習(xí)中有著廣泛的應(yīng)用,本文通過對機(jī)器學(xué)習(xí)中貝葉斯分類器的解析,指出了貝葉斯分類器在機(jī)器學(xué)習(xí)中的適用方面和不足之處。使其能更加清楚認(rèn)識(shí)了解貝葉斯算法,并能在適合的方面使用貝葉斯算法。關(guān)鍵詞:機(jī)器學(xué)習(xí)貝葉斯算法適用1.引言機(jī)器學(xué)習(xí)是計(jì)算機(jī)問世以來,興起的一門新興學(xué)科。所謂機(jī)器學(xué)習(xí)是指研究如何使用計(jì)算機(jī)來模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科,研究計(jì)算機(jī)獲得新知識(shí)和新技能,識(shí)別現(xiàn)有知識(shí),不斷改善性能,實(shí)現(xiàn)自我完善的方法,從而使計(jì)算機(jī)能更大性
2、能的為人類服務(wù)。機(jī)器學(xué)習(xí)所適用的范圍廣闊,在醫(yī)療、軍事、教育等各個(gè)領(lǐng)域都有著廣泛的應(yīng)用,并發(fā)揮了積極的作用。而分類是機(jī)器學(xué)習(xí)中的基本問題之一,目前針對不同的分類技術(shù),分類方法有很多,如決策樹分類、支持向量機(jī)分類、神經(jīng)網(wǎng)絡(luò)分類等。貝葉斯分類器作為機(jī)器學(xué)習(xí)分類中的一種,近年來在許多領(lǐng)域也受到了很大的關(guān)注,本文對貝葉斯分類器進(jìn)行總結(jié)分析和比較,提出一些針對不同應(yīng)用對象挑選貝葉斯分類器的方法。1.貝葉斯公式與貝葉斯分類器:2.1貝葉斯公式:在概率論方面的貝葉斯公式是在乘法公式和全概率公式的基礎(chǔ)上推導(dǎo)出來的,它是指設(shè)■是樣本空間Q的一個(gè)分割
3、,即■互不相容,且,如果■,■,■,則,■這就是貝葉斯公式,■稱為后驗(yàn)概率,■為先驗(yàn)概率,一般是已知先驗(yàn)概率來求后驗(yàn)概率,貝葉斯定理提供了'‘預(yù)測”的實(shí)用模型,即已知某事實(shí),預(yù)測另一個(gè)事實(shí)發(fā)生的可能性大小。2.2機(jī)器學(xué)習(xí)中的貝葉斯法則:在機(jī)器學(xué)習(xí)中,在給定訓(xùn)練數(shù)據(jù)D時(shí),確定假設(shè)空間H中的最佳假設(shè),我們用■來代表在沒訓(xùn)練數(shù)據(jù)前假設(shè)■擁有的初始概率?!鰹椤龅南闰?yàn)概率,用■代表將要觀察訓(xùn)練數(shù)據(jù)D的先驗(yàn)概率,以■代表假設(shè)■成立的情況下觀察到數(shù)據(jù)D的概率,以■為給定訓(xùn)練數(shù)據(jù)D時(shí)■成立的概率,■稱為■的后驗(yàn)概率,機(jī)器學(xué)習(xí)中的貝葉斯公式為:學(xué)習(xí)
4、器考慮候選假設(shè)集合H并在其中尋找給定數(shù)據(jù)D時(shí)可能性最大的假設(shè),稱為MAP假設(shè),記為■,則2.3貝葉斯分類器貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。該網(wǎng)絡(luò)中應(yīng)包含類結(jié)點(diǎn)C,其中C的取值來自于類集合(cl,c2,…,cm),還包含一組結(jié)點(diǎn)X=(XI,X2,…,Xn),表示用于分類的特征。對于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D,其分類特征值為x=(xl,x2,???,xn),則樣本D屬于類別ci的概率C=ciXl=xl,X2=x2,,Xn=xn)=1,2,…,m)應(yīng)滿足下式:P(C=ciIX=x)=Max{P(C=clIX=x)C二c2
5、X二x),P(C二cmX二x)}而由貝葉斯公式其中,P(C二ci)可由經(jīng)驗(yàn)得到,而P(X二x
6、C=ci)和P(X=x)的計(jì)算則較困難。應(yīng)用貝葉斯網(wǎng)絡(luò)分類器進(jìn)行分類主要分成兩階段:第一階段是貝葉斯網(wǎng)絡(luò)分類器的學(xué)習(xí),即從樣本數(shù)據(jù)中構(gòu)造分類器,包括結(jié)構(gòu)學(xué)習(xí)和CPT學(xué)習(xí);第二階段是貝葉斯網(wǎng)絡(luò)分類器的推理,即計(jì)算類結(jié)點(diǎn)的條件概率,對分類數(shù)據(jù)進(jìn)行分類。這兩個(gè)階段的時(shí)間復(fù)雜性均取決于特征值間的依賴程度,甚至可以是NP完全問題,因而在實(shí)際應(yīng)用中,往往需要對貝葉斯網(wǎng)絡(luò)分類器進(jìn)行簡化。本節(jié)小結(jié):本節(jié)講解了從數(shù)學(xué)中的貝葉斯公式及在機(jī)器學(xué)習(xí)中貝葉斯法則在
7、機(jī)器學(xué)習(xí)中是如何應(yīng)用的,使讀者清楚了解了貝葉斯的應(yīng)用方面是比較廣泛的,貝葉斯不論是在數(shù)學(xué)領(lǐng)域,還是在機(jī)器學(xué)習(xí)中都有著重要地位,因此掌握貝葉斯法則是很有必要的。1.貝葉斯最優(yōu)分類器與樸素貝葉斯分類器3.1貝葉斯最優(yōu)分類器'‘給定訓(xùn)練數(shù)據(jù),對新實(shí)例的最可能分類是什么?”新實(shí)例的最可能分類可通過合并所有假設(shè)的預(yù)測得到,用后驗(yàn)概率來加權(quán)。如果新樣例的可能分類可取某集合V中的任一值?,那么概率■表示新實(shí)例的正確分類為■的概率,其值為:新實(shí)例的最優(yōu)分類為使■最大的值■,則按上式分類新實(shí)例的系統(tǒng)被稱為貝葉斯最優(yōu)分類器。使用相同的假設(shè)空間和相同的
8、先驗(yàn)概率,使用貝葉斯最優(yōu)分類器是最好的,它能使新實(shí)例被正確分類的可能性達(dá)到最大。3.2樸素貝葉斯分類器樸素貝葉斯分類器是貝葉斯學(xué)習(xí)方法中實(shí)用性很高的一種,樸素貝葉斯對于數(shù)據(jù)的分類過程如下:對每個(gè)實(shí)例x可由屬性值的合取描述,而目標(biāo)函數(shù)f(x)從某有限集合V中取值。學(xué)習(xí)器被提供一系列關(guān)于目標(biāo)函數(shù)的訓(xùn)練樣例以及新實(shí)例?,然后要求預(yù)測新實(shí)例的目標(biāo)值,得到最可能的目標(biāo)值■使用貝葉斯公式,可將此表達(dá)式重寫為樸素貝葉斯分類器基于一個(gè)簡單的假定:在給定目標(biāo)值時(shí)屬性值之間相互條件獨(dú)立。因此聯(lián)合的的概率等于每個(gè)單獨(dú)屬性的概率的乘積將其帶人上式得其中■
9、表示樸素貝葉斯分類器輸出的目標(biāo)值。樸素貝葉斯分類器模型中:■為給定一個(gè)實(shí)例,得到的最可能的目標(biāo)值?!鰧儆诩蟅。al...an是這個(gè)實(shí)例里面的屬性.■是后面計(jì)算得出的概率最大的一個(gè),所以用max來表不O本節(jié)小結(jié):本節(jié)著重講解了貝葉斯分類器在機(jī)器學(xué)習(xí)