資源描述:
《用身高和體重?cái)?shù)據(jù)進(jìn)行性別分類的實(shí)驗(yàn)報(bào)告.docx》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、實(shí)驗(yàn)一用身高和/或體重?cái)?shù)據(jù)進(jìn)行性別分類姓名:學(xué)號(hào):姓名:學(xué)號(hào):一、實(shí)驗(yàn)?zāi)康?)加深對(duì)Bayes分類器原理的理解和認(rèn)識(shí)2)掌握Bayes分類器的設(shè)計(jì)方法二、實(shí)驗(yàn)內(nèi)容1)用FAMALE.TXT和MALE.TXT的數(shù)據(jù)作為訓(xùn)練樣本集,建立Bayes分類器;
2)用測(cè)試樣本數(shù)據(jù)test2.txt對(duì)該分類器進(jìn)行測(cè)試;
3)調(diào)整特征、分類器等方面的一些因素,考察它們對(duì)分類器性能的影響,從而加深對(duì)所學(xué)內(nèi)容的理解和感性認(rèn)識(shí)。三、實(shí)驗(yàn)步驟1)應(yīng)用單個(gè)特征進(jìn)行實(shí)驗(yàn):以(a)身高或者(b)體重?cái)?shù)據(jù)作為特征,在正態(tài)分布假設(shè)下利
2、用最大似然法或者貝葉斯估計(jì)法估計(jì)分布密度參數(shù),建立最小錯(cuò)誤率Bayes分類器,寫出得到的決策規(guī)則,將該分類器應(yīng)用到測(cè)試樣本,考察測(cè)試錯(cuò)誤情況.在分類器設(shè)計(jì)時(shí)可以考察采用不同先驗(yàn)概率(如0.5對(duì)0.5,0.75對(duì)0.25,0.9對(duì)0.1等)進(jìn)行實(shí)驗(yàn),考察對(duì)決策規(guī)則和錯(cuò)誤率的影響;2)用兩個(gè)特征進(jìn)行實(shí)驗(yàn):同時(shí)采用身高和體重?cái)?shù)據(jù)作為特征,分別假設(shè)二者相關(guān)或不相關(guān),在正態(tài)分布假設(shè)下估計(jì)概率密度,建立最小錯(cuò)誤率Bayes分類器,寫出得到的決策規(guī)則,將該分類器應(yīng)用到訓(xùn)練/測(cè)試樣本,考察訓(xùn)練/測(cè)試錯(cuò)誤情況。比較相關(guān)假
3、設(shè)和不相關(guān)假設(shè)下結(jié)果的差異。在分類器設(shè)計(jì)時(shí)可以考察采用不同先驗(yàn)概率(如0.5vs.0.5,0.75vs.0.25,0.9vs.0.1等)進(jìn)行實(shí)驗(yàn),考察對(duì)決策和錯(cuò)誤率的影響;3)自行給出一個(gè)決策表,采用最小風(fēng)險(xiǎn)的Bayes決策重復(fù)上面的某個(gè)或全部實(shí)驗(yàn)。四、原理簡(jiǎn)述、程序流程圖及相應(yīng)結(jié)果(一)、實(shí)驗(yàn)一在正態(tài)分布假設(shè)下,利用最大似然法估計(jì)分布密度函數(shù),具體過程如下:1、原理(1)、一維情況:n=1對(duì)于每個(gè)學(xué)習(xí)樣本只有一個(gè)特征(取身高為特征)的簡(jiǎn)單情況:——學(xué)習(xí)樣本的算術(shù)平均——樣本方差的最大似然估計(jì)(2)、最
4、小錯(cuò)誤率Bayes分類器多元正態(tài)概率型下的最小錯(cuò)誤率貝葉斯判別函數(shù)(一般情況)。判別函數(shù):決策規(guī)則:2、具體步驟如下A).算出各類別特征值的均值B).求出特征值的協(xié)方差矩陣C).將第二步所得矩陣代入判別函數(shù)、D).將待測(cè)試樣本集數(shù)據(jù)依次代入—,若—>0,則判斷其為第一類,反之為第二類。3、流程圖NY最大似然法求出均值與協(xié)方差分別代入判別函數(shù)確定特征及先驗(yàn)概率第一類第二類(5)實(shí)驗(yàn)結(jié)果及分析表1.只考慮身高的不同先驗(yàn)概率下男女判錯(cuò)統(tǒng)計(jì)表女生先驗(yàn)概率P(1)男生先驗(yàn)概率P(2)訓(xùn)練樣本判錯(cuò)個(gè)數(shù)N1訓(xùn)練樣本錯(cuò)
5、誤率Η1測(cè)試樣本1判錯(cuò)個(gè)數(shù)N2測(cè)試樣本1錯(cuò)誤率Η2測(cè)試樣本2判錯(cuò)個(gè)數(shù)N3測(cè)試樣本2錯(cuò)誤率Η30.50.51616%411.5%6622%0.250.751414%38.5%3210.7%0.10.91414%25.7%279%由表可知:對(duì)于訓(xùn)練樣本,當(dāng)女生先驗(yàn)概率為0.25或0.1時(shí),判別錯(cuò)誤率最小;對(duì)于測(cè)試樣本,當(dāng)女生先驗(yàn)概率為0.1時(shí),測(cè)試樣本1判別錯(cuò)誤率最小;為0.1時(shí),測(cè)試樣本2判別錯(cuò)誤率最??;表2.只考慮體重的不同先驗(yàn)概率下男女判錯(cuò)統(tǒng)計(jì)表女生先驗(yàn)概率P(1)男生先驗(yàn)概率P(2)訓(xùn)練樣本判錯(cuò)個(gè)數(shù)
6、N1訓(xùn)練樣本錯(cuò)誤率Η1測(cè)試樣本1判錯(cuò)個(gè)數(shù)N2測(cè)試樣本1錯(cuò)誤率Η2測(cè)試樣本2判錯(cuò)個(gè)數(shù)N3測(cè)試樣本2錯(cuò)誤率Η30.50.51616%823%8127%0.250.751515%514.3%4214%0.10.91212%38.5%5317.7%由表可知:對(duì)于訓(xùn)練樣本,當(dāng)女生先驗(yàn)概率為0.1時(shí),判別錯(cuò)誤率最??;對(duì)于測(cè)試樣本,當(dāng)女生先驗(yàn)概率為0.1時(shí),測(cè)試樣本1判別錯(cuò)誤率最小;為0.25時(shí),測(cè)試樣本2判別錯(cuò)誤率最??;故可推測(cè)用最大似然估計(jì)對(duì)只考慮單特征的錯(cuò)誤率進(jìn)行計(jì)算時(shí),先驗(yàn)概率越高,被判別的錯(cuò)誤率越??;且所選
7、取的特征對(duì)錯(cuò)誤率也有一定影響,其影響取決于訓(xùn)練樣本數(shù)據(jù)與測(cè)試樣本數(shù)據(jù)的特征差異。(二)、實(shí)驗(yàn)二1、原理正態(tài)分布的監(jiān)督參數(shù)估計(jì):樣品所屬的類別及類條件總體概率密度函數(shù)的形式為已知,而表征概率密度函數(shù)的某些參數(shù)是未知的。本實(shí)驗(yàn)符合上述條件且在正態(tài)分布假設(shè)下估計(jì)分布密度參數(shù)故使用正態(tài)分布的監(jiān)督參數(shù)估計(jì)(1)、對(duì)于多元正態(tài)分別,其最大似然估計(jì)的結(jié)果為:(2)、最小錯(cuò)誤率Bayes分類器A)、判別函數(shù):a.假設(shè)身高體重不相關(guān)令協(xié)方差矩陣次對(duì)角元素為零,判別函數(shù)可簡(jiǎn)化為:其中,,b.假設(shè)身高體重相關(guān)判別函數(shù)可簡(jiǎn)化為
8、:其中,,B)決策規(guī)則:2、具體步驟:a.算出各類別特征值的均值b.求出特征值的協(xié)方差矩陣c.將第二步所得矩陣代入判別函數(shù)、d.將待測(cè)試樣本集數(shù)據(jù)依次代入—,若—>0,則判斷其為第一類,反之為第二類。3、程序流程圖NY最大似然法求出均值與協(xié)方差分別代入判別函數(shù)確定特征及先驗(yàn)概率第一類第二類4、實(shí)驗(yàn)結(jié)果及分析A)假設(shè)身高與體重相關(guān)(以訓(xùn)練樣本建立判別函數(shù))表3.身高和體重相關(guān)情況下男女判錯(cuò)統(tǒng)計(jì)表女生先驗(yàn)概率P(1)男生先驗(yàn)概率P(2)訓(xùn)練樣本