資源描述:
《基于樸素貝葉斯模型的兩類問題分類》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于樸素貝葉斯模型的兩類問題分類一、實(shí)驗(yàn)?zāi)康?通過實(shí)驗(yàn),加深對(duì)統(tǒng)計(jì)判決與概率密度估計(jì)基本思想、方法的認(rèn)識(shí),了解影響B(tài)ayes分類器性能的因素,掌握基于Bayes決策理論的隨機(jī)模式分類的原理和方法,并理解ROC曲線的意義二、實(shí)驗(yàn)內(nèi)容?通過Bayes決策理論的分類器,從給定樣本集選擇訓(xùn)練集以及測(cè)試集進(jìn)行訓(xùn)練并分類,用matlab實(shí)現(xiàn),繪制ROC曲線,得到最優(yōu)的分類閾值三、實(shí)驗(yàn)原理?Bayes分類器的基本思想是依據(jù)類的概率、概密,按照某種準(zhǔn)則使分類結(jié)果從統(tǒng)計(jì)上講是最佳的。換言之,根據(jù)類的概率、概密將模式空間劃分成若干個(gè)子空間,在此基礎(chǔ)上形
2、成模式分類的判決規(guī)則。準(zhǔn)則函數(shù)不同,所導(dǎo)出的判決規(guī)則就不同,分類結(jié)果也不同。使用哪種準(zhǔn)則或方法應(yīng)根據(jù)具體問題來確定樸素貝葉斯的一個(gè)基本假設(shè)是所有特征在類別已知的條件下是相互獨(dú)立的,即pxwi=px1,x2,…,xdwi=j=1dpxjwi在構(gòu)建分類器時(shí),只需要逐個(gè)估計(jì)出每個(gè)類別的訓(xùn)練樣本在每一維上的分布形式,就可以得到每個(gè)類別的條件概率密度,大大減少了需要估計(jì)的參數(shù)的數(shù)量。樸素貝葉斯分類器可以根據(jù)具體問題確定樣本在每一維特征上的分布形式,最常用的一種假設(shè)是每一個(gè)類別的樣本都服從各維特征之間相互獨(dú)立的高斯分布,即pxwi=j=1dpx
3、jwi=j=1d12πσijexp-xj-μij22σij式中uij——第i類樣本在第j維特征上的均值σij——相應(yīng)的方差可以得到對(duì)數(shù)判別函數(shù):gix=lnpxwi+lnPwi=j=1d-12ln2π-lnσij-xj-μij22σij+lnPwi=-d2ln2π-j=1dlnσij-j=1dxj-μij22σij+lnPwi其中的第1項(xiàng)與類別無關(guān),可以忽略,由此得到判別函數(shù):gix=lnPwi-j=1dlnσij-j=1dxj-μij22σij四、實(shí)驗(yàn)步驟1、用給定的兩類樣本集,各選取前400個(gè)作為訓(xùn)練樣本,通過調(diào)用MATLAB工
4、具箱的NaiveBayes類的fit函數(shù)訓(xùn)練分類器2、通過1得到的訓(xùn)練器,選取樣本集后100個(gè)樣本作為測(cè)試樣本,得到分類結(jié)果。3、對(duì)測(cè)試集的分類結(jié)果進(jìn)行統(tǒng)計(jì),計(jì)算正確率。4、繪制相應(yīng)的ROC曲線五、實(shí)驗(yàn)代碼function[Train,TrainLabel]=getTrain(c1,c2)%UNTITLED得到訓(xùn)練樣本%根據(jù)給定兩類樣本集各選取前400行樣本作為訓(xùn)練樣本c1=c1(1:400,:);c2=c2(1:400,:);c=[c1;c2];Train=c(:,2:25);TrainLabel=c(:,1);endfuncti
5、on[FirstTest,FirstTestLabel]=getFirstTest(c1)%UNTITLED2得到第一類測(cè)試集%選取第一類樣本集的后100行作為測(cè)試集c1=c1(401:500,:);FirstTest=c1(:,2:25);FirstTestLabel=c1(:,1);endfunction[SecondTest,SecondTestLabel]=getSecondTest(c2)%UNTITLED3得到第二類測(cè)試集%選取第二類最后100行作為第二類測(cè)試集c2=c2(401:500,:);SecondTest=c2
6、(:,2:25);SecondTestLabel=c2(:,1);endfunction[right]=getRight(l,realLabel)%UNTITLED4得到正確率%根據(jù)預(yù)測(cè)結(jié)果以及真實(shí)類別標(biāo)號(hào)統(tǒng)計(jì)預(yù)測(cè)正確個(gè)數(shù)得到正確率count=0;fori=1:100if(l(i)==realLabel)count=count+1;endendright=count/100;endfunction[Fright,Sright,pl,rl]=predict(c1,c2)%UNTITLED5得到兩類預(yù)測(cè)正確率[Train,TrainLa
7、bel]=getTrain(c1,c2);%得到訓(xùn)練樣本以及類別標(biāo)號(hào)N=NaiveBayes.fit(Train,TrainLabel);%利用函數(shù)進(jìn)行分類器訓(xùn)練[ft,fl]=getFirstTest(c1);%得到第一類測(cè)試樣本以及真實(shí)類別標(biāo)號(hào)fpl=predict(N,ft);%得到第一類測(cè)試樣本預(yù)測(cè)類別標(biāo)號(hào)Fright=getRight(fpl,fl);%得到第一類測(cè)試樣本分類正確率[st,sl]=getSecondTest(c2);%得到第二類測(cè)試樣本以及真實(shí)類別標(biāo)號(hào)spl=predict(N,st);%得到第二類測(cè)試樣本
8、預(yù)測(cè)類別標(biāo)號(hào)Sright=getRight(spl,sl);%得到第二類測(cè)試樣本分類正確率pl=[fpl;spl];%將兩類預(yù)測(cè)標(biāo)號(hào)合并rl=[fl;sl];%將兩類真實(shí)標(biāo)號(hào)合并end>>[Fright,Sright,predictL