資源描述:
《用身高和體重?cái)?shù)據(jù)進(jìn)行性別分類的實(shí)驗(yàn)報(bào)告》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、用身高和體重?cái)?shù)據(jù)進(jìn)行性別分類的實(shí)驗(yàn)報(bào)告一、基本要求用FAMALE.TXT和MALE.TXT的數(shù)據(jù)作為訓(xùn)練樣本集,建立Bayes分類器,用測(cè)試樣本數(shù)據(jù)對(duì)該分類器進(jìn)行測(cè)試。調(diào)整特征、分類器等方面的一些因素,考察它們對(duì)分類器性能的影響,從而加深對(duì)所學(xué)內(nèi)容的理解和感性認(rèn)識(shí)。二、具體做法(1)應(yīng)用兩個(gè)特征進(jìn)行實(shí)驗(yàn):同時(shí)采用身高和體重?cái)?shù)據(jù)作為特征,分別假設(shè)二者相關(guān)或不相關(guān),在正態(tài)分布假設(shè)下估計(jì)概率密度,建立最小錯(cuò)誤率Bayes分類器,寫出得到的決策規(guī)則,將該分類器應(yīng)用到訓(xùn)練/測(cè)試樣本,考察訓(xùn)練/測(cè)試錯(cuò)誤情況。比較相關(guān)假設(shè)和不相關(guān)假設(shè)下結(jié)果的差異。在分類器設(shè)計(jì)時(shí)可以考察采用不同先驗(yàn)概
2、率(如0.5vs.0.5,0.75vs.0.25,0.9vs.0.1等)進(jìn)行實(shí)驗(yàn),考察對(duì)決策和錯(cuò)誤率的影響。(2)自行給出一個(gè)決策表,采用最小風(fēng)險(xiǎn)的Bayes決策重復(fù)上面的實(shí)驗(yàn)。三、原理簡(jiǎn)述及程序框圖A.正態(tài)分布的監(jiān)督參數(shù)估計(jì)監(jiān)督參數(shù)估計(jì):樣品所屬的類別及類條件總體概率密度函數(shù)的形式為已知,而表征概率密度函數(shù)的某些參數(shù)是未知的。本實(shí)驗(yàn)符合上述條件且在正態(tài)分布假設(shè)下估計(jì)分布密度參數(shù)故使用正態(tài)分布的監(jiān)督參數(shù)估計(jì)對(duì)于多元正態(tài)分別,其最大似然估計(jì)的結(jié)果為:B.最小錯(cuò)誤率Bayes分類器在多元正態(tài)模型下的最小錯(cuò)誤率角度來分析Bayes分類器(1)假設(shè)身高與體重不相關(guān)令協(xié)方差矩陣次
3、對(duì)角元素為零判別函數(shù)可簡(jiǎn)化為其中,具體算法步驟如下:第一步將訓(xùn)練樣本集數(shù)據(jù)轉(zhuǎn)為矩陣FA,MA。第二步分別對(duì)FA,MA求取協(xié)方差,令協(xié)方差矩陣次對(duì)角元素為零,平均值并輸入先驗(yàn)概率第三步將第二步所得數(shù)值代入判別函數(shù)表達(dá)式得。第四步將待測(cè)樣本集數(shù)據(jù)轉(zhuǎn)為矩陣T,將T中數(shù)值依次代,若,則判斷其為第一類,反之,第二類。(2)假設(shè)身高與體重相關(guān)判別函數(shù)可簡(jiǎn)化為其中,具體算法步驟如下:第一步將訓(xùn)練樣本集數(shù)據(jù)轉(zhuǎn)為矩陣FA,MA。第二步分別對(duì)FA,MA求取協(xié)方差平均值并輸入先驗(yàn)概率第三步將第二步所得數(shù)值代入判別函數(shù)表達(dá)式得。第四步將待測(cè)樣本集數(shù)據(jù)轉(zhuǎn)為矩陣T,將T中數(shù)值依次代,若,則判斷其為
4、第一類,反之,第二類。A.最小風(fēng)險(xiǎn)Bayes分類器(1)在已知先驗(yàn)概率和類條件概率密度,j=1,…c及給出帶識(shí)別的x的情況下,根據(jù)Bayes公式計(jì)算后驗(yàn)概率:(2)利用后驗(yàn)概率及決策表,計(jì)算條件風(fēng)險(xiǎn)(3),就是最小風(fēng)險(xiǎn)Bayes決策。其中(1)中先驗(yàn)概率根據(jù)自行輸入,類條件概率密度=,本實(shí)驗(yàn)為二維二類,故d=2,(2)中決策表自行輸入。一、實(shí)驗(yàn)結(jié)果及分析總結(jié)(1)用最小錯(cuò)誤率Bayes決策假設(shè)身高與體重相關(guān)(以訓(xùn)練樣本建立判別函數(shù))性別為女生的先驗(yàn)概率P(1)性別為男生的先驗(yàn)概率P(2)訓(xùn)練樣本判錯(cuò)的個(gè)數(shù)N1訓(xùn)練樣本的錯(cuò)誤率Η1測(cè)試樣本判錯(cuò)的個(gè)數(shù)N2測(cè)試樣本的錯(cuò)誤率Η2
5、0.10.92424%165.33%0.17(1/6)0.83(5/6)1919%144.67%0.40.61313%248%0.50.51212%3210.67%0.750.251414%6020.00%由表可知:對(duì)于訓(xùn)練樣本,當(dāng)女生先驗(yàn)概率為0.5時(shí),判別錯(cuò)誤率最小對(duì)于測(cè)試樣本,當(dāng)女生先驗(yàn)概率為1/6時(shí),判別錯(cuò)誤率最小故可推測(cè)用最小錯(cuò)誤率Bayes決策假設(shè)身高與體重相關(guān)當(dāng)女生先驗(yàn)概率等于待測(cè)樣本中女生樣本占待測(cè)樣本的概率時(shí),錯(cuò)誤率最小,且越遠(yuǎn)離此概率,錯(cuò)誤率越大。最佳決策對(duì)于訓(xùn)練樣本,當(dāng)女生先驗(yàn)概率為0.5對(duì)于測(cè)試樣本,當(dāng)女生先驗(yàn)概率為1/6假設(shè)身高與體重不相關(guān)(以
6、訓(xùn)練樣本建立判別函數(shù))性別為女生的先驗(yàn)概率P(1)性別為男生的先驗(yàn)概率P(2)訓(xùn)練樣本判錯(cuò)的個(gè)數(shù)N1訓(xùn)練樣本的錯(cuò)誤率Η1測(cè)試樣本判錯(cuò)的個(gè)數(shù)N2測(cè)試樣本的錯(cuò)誤率Η20.10.91919%165.33%0.170.831414%175.67%0.40.61111%268.67%0.50.51212%299.67%0.750.251313%4515.00%對(duì)于訓(xùn)練樣本當(dāng)女生先驗(yàn)概率接近0.5時(shí)錯(cuò)誤率最小最佳決策對(duì)于訓(xùn)練樣本,當(dāng)女生先驗(yàn)概率為0.5(2)用最小風(fēng)險(xiǎn)的Bayes決策當(dāng)決策表為女生男生判為女生03判為男生20身高體重相關(guān)性別為女生的先驗(yàn)概率P(1)性別為男生的先驗(yàn)概
7、率P(2)訓(xùn)練樣本判錯(cuò)的個(gè)數(shù)N1訓(xùn)練樣本的錯(cuò)誤率Η1測(cè)試樣本判錯(cuò)的個(gè)數(shù)N2測(cè)試樣本的錯(cuò)誤率Η20.10.92626%196,33%0.250.751919%155,00%0.40.61414%196,33%0.50.51313%248,00%0.750.251616%4715,67%對(duì)于訓(xùn)練樣本,當(dāng)女生先驗(yàn)概率為0.5時(shí),判別錯(cuò)誤率最小對(duì)于測(cè)試樣本,當(dāng)女生先驗(yàn)概率為1/6時(shí),判別錯(cuò)誤率最小故可推測(cè)用最小風(fēng)險(xiǎn)Bayes決策假設(shè)身高與體重相關(guān)當(dāng)女生先驗(yàn)概率等于待測(cè)樣本中女生樣本占待測(cè)樣本的概率時(shí),錯(cuò)誤率最小,且越遠(yuǎn)離此概率,錯(cuò)誤率越大。最佳決