資源描述:
《用身高和體重?cái)?shù)據(jù)進(jìn)行分類實(shí)驗(yàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、用身高和體重?cái)?shù)據(jù)進(jìn)行性別分類的實(shí)驗(yàn)報(bào)告一、基本要求:1?用FAMALE.TXT和MALE.TXT的數(shù)據(jù)作為訓(xùn)練樣本集,建立Bayes分類器,用測(cè)試樣木數(shù)據(jù)對(duì)該分類器進(jìn)行測(cè)試。調(diào)整特征、分類器等方面的一些因素,考察它們對(duì)分類器性能的影響,從而加深對(duì)所學(xué)內(nèi)容的理解和感性認(rèn)識(shí)。二、具體做法:(1)應(yīng)用單個(gè)特征進(jìn)行實(shí)驗(yàn):以(a)身高或者(b)體重?cái)?shù)據(jù)作為特征,在正態(tài)分布假設(shè)卜?利用最大似然法或者貝葉斯估計(jì)法估計(jì)分布密度參數(shù),建立最小錯(cuò)誤率Bayes分類器,寫出得到的決策規(guī)則,將該分類器應(yīng)用到測(cè)試樣本,考察測(cè)試錯(cuò)誤情況。在分類器設(shè)計(jì)吋可以考察采用不同先驗(yàn)概率(如0.5對(duì)0.5,0.7
2、5對(duì)0.25,0.9對(duì)0」等)進(jìn)行實(shí)驗(yàn),考察對(duì)決策規(guī)則和錯(cuò)誤率的影響。(2)應(yīng)用兩個(gè)特征進(jìn)行實(shí)驗(yàn):同時(shí)采用身高和體重?cái)?shù)據(jù)作為特征,分別假設(shè)二者相關(guān)或不相關(guān),在正態(tài)分布假設(shè)下估計(jì)概率密度,建立最小錯(cuò)誤率Bayes分類器,寫出得到的決策規(guī)則,將該分類器應(yīng)用到訓(xùn)練/測(cè)試樣本,考察訓(xùn)練/測(cè)試錯(cuò)誤情況。比較相關(guān)假設(shè)和不相關(guān)假設(shè)下結(jié)果的差異。在分類器設(shè)計(jì)時(shí)可以考察釆用不同先驗(yàn)概率(如0.5vs.0.5,0.75vs.0.25,0.9vs.0.1等)進(jìn)行實(shí)驗(yàn),考察對(duì)決策和錯(cuò)誤率的影響。(3)自行給出一個(gè)決策表,采用最小風(fēng)險(xiǎn)的Bnyes決策重復(fù)上而的某個(gè)或全部實(shí)驗(yàn)。三、原理簡(jiǎn)述及程序框圖最
3、小錯(cuò)誤率Bayes分類器(1)基于身高笫一步求出訓(xùn)練樣本的方差和期望第二步利用單變量正態(tài)分布公式算出條件概率第三步將前兩步的值帶入貝葉斯公式第四步若pF>=pM,則判斷其為第一類,反Z,第二類(2-1)假設(shè)身高與體重不相關(guān)令協(xié)方差矩陣次對(duì)角元素為零判別函數(shù)可簡(jiǎn)化為Si(x)=*比丸+wQc+?0其中Wi=-'Wj=E_,//,?--*加區(qū)
4、+InP(a))具體算法步驟如下:笫一步將訓(xùn)練樣本集數(shù)據(jù)轉(zhuǎn)為矩陣FA,MAo第二步分別對(duì)FA,MA求取協(xié)方差乙,工2,令協(xié)方差矩陣次對(duì)角元索為零,平均值/并輸入先驗(yàn)概率戶(如,“0)第三步將第二步所得數(shù)值代入判別函數(shù)表達(dá)式得g.(x),g
5、2(x)o第四步將待測(cè)樣本集數(shù)據(jù)轉(zhuǎn)為矩陣T,將T屮數(shù)值依次代匕(刃-勺(兀),若gl(對(duì)-&2(兀)則判斷其為第一類,反Z,第二類。(2-2)假設(shè)身高與體重相關(guān)判別函數(shù)口J簡(jiǎn)化為g,(x)=x/Wtx+w/x+%其屮比?=-*右,ha=L_1A%=:工Jui~+In區(qū)I+MP(?)具體算法步驟如下:第一步將訓(xùn)練樣木集數(shù)據(jù)轉(zhuǎn)為矩陣FA,MA。第二步分別對(duì)FA,MA求取協(xié)方差紜,工2平均值",“2并輸入先驗(yàn)概率F(禺),P(p)第三步將第二步所得數(shù)值代入判別函數(shù)表達(dá)式得匕(兀),煤(兀)。笫四步將待測(cè)樣本集數(shù)據(jù)轉(zhuǎn)為矩陣T,將T中數(shù)值依次代g,(x)-g2(x),若8
6、(兀)-&
7、2(對(duì)>0,則判斷其為第一?類,反之,笫二類。最小風(fēng)險(xiǎn)Bayes分類器(1)在已知先驗(yàn)概率卩(?)和類條件概率密度P(x/?),j=l,…c及給出帶識(shí)別的x的情況下,根據(jù)Bayes公式計(jì)算后驗(yàn)概率:P(?/兀)=Ep(xM)p(^)/=
8、(2)利用后驗(yàn)概率及決策表,計(jì)算條件風(fēng)險(xiǎn)/?仏/兀)/?(%)二工2(e/?)P(?/x),i=l,???,d/=!(3)R(%/x)=minR仏/兀)‘a(chǎn)k就是最小風(fēng)險(xiǎn)Bayes決策。其中(1)中先驗(yàn)概率p(?)根據(jù)£
9、行輸入,類條件概率密度expj(x-w)7工」(兀_況)為二維二類,故d=2,決策表口行輸入。四實(shí)驗(yàn)結(jié)果及分析總結(jié)用最小
10、錯(cuò)i吳率Bayes決策(1)基于身高身高(300個(gè)測(cè)試樣本)性別為女生性別為男生男生誤判錯(cuò)女生誤判錯(cuò)測(cè)試樣本的的先驗(yàn)概率的先驗(yàn)概率的個(gè)數(shù)的個(gè)數(shù)正確率0.90」147051%0.750.2564278%0.50.523491%0.250.75101093.3%0」0.941394.3%(2-1)身高與體重不相關(guān)(300個(gè)樣木)性別為女生性別為男生男生誤判錯(cuò)女生誤判錯(cuò)測(cè)試樣木的的先驗(yàn)概率的先驗(yàn)概率的個(gè)數(shù)的個(gè)數(shù)正確率0.90.157180.7%0.750.2544185%0.50.527290.3%0.250.7515493.7%0」0.98894.7%(2-2)假設(shè)身高與體重相
11、關(guān)(300個(gè)測(cè)試樣本)性別為女生性別為勢(shì)生勢(shì)生誤判錯(cuò)女生誤判錯(cuò)測(cè)試樣木的的先驗(yàn)概率的先驗(yàn)概率的個(gè)數(shù)的個(gè)數(shù)正確率0.90.197167.3%0.750.2559180%0.50.531189.3%0.250.758695.3%0」0.941294.7%(2)用最小風(fēng)險(xiǎn)的Bayes決策當(dāng)決策為身高體重相關(guān)(300個(gè)測(cè)試樣木)性別為女生性別為男生男生誤判錯(cuò)女生誤判錯(cuò)測(cè)試樣本的的先驗(yàn)概率的先驗(yàn)概率的個(gè)數(shù)的個(gè)數(shù)正確率0.90」80173%0.750.2546184.3%0.50.520492%0.250.756995%0」0