資源描述:
《模式識(shí)別——用身高和或體重?cái)?shù)據(jù)進(jìn)行性別分類(lèi).doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、用身高和/或體重?cái)?shù)據(jù)進(jìn)行性別分類(lèi)1、【實(shí)驗(yàn)?zāi)康摹浚?)掌握最小錯(cuò)誤率Bayes分類(lèi)器的決策規(guī)則(2)掌握Parzen窗法(3)掌握Fisher線性判別方法(4)熟練運(yùn)用matlab的相關(guān)知識(shí)。2、【實(shí)驗(yàn)原理】(1)、最小錯(cuò)誤率Bayes分類(lèi)器的決策規(guī)則如果在特征空間中觀察到某一個(gè)(隨機(jī))向量x=(x1,x2,…,xd)T,已知類(lèi)別狀態(tài)的先驗(yàn)概率為:和類(lèi)別的條件概率密度為,根據(jù)Bayes公式得到狀態(tài)的后驗(yàn)概率有:基本決策規(guī)則:如果,則,將x歸屬后驗(yàn)概率最大的類(lèi)別。(2)、掌握Parzen窗法對(duì)于被估計(jì)點(diǎn)X:其估計(jì)概率密度
2、的基本公式,設(shè)區(qū)域RN是以hN為棱長(zhǎng)的d維超立方體,則立方體的體積為;選擇一個(gè)窗函數(shù),落入該立方體的樣本數(shù)為,點(diǎn)x的概率密度:其中核函數(shù):,滿(mǎn)足的條件:;。(3)、Fisher線性判別方法Fisher線性判別分析的基本思想:通過(guò)尋找一個(gè)投影方向(線性變換,線性組合),將高維問(wèn)題降低到一維問(wèn)題來(lái)解決,并且要求變換后的一維數(shù)據(jù)具有如下性質(zhì):同類(lèi)樣本盡可能聚集在一起,不同類(lèi)的樣本盡可能地遠(yuǎn)。Fisher線性判別分析,就是通過(guò)給定的訓(xùn)練數(shù)據(jù),確定投影方向W和閾值y0,即確定線性判別函數(shù),然后根據(jù)這個(gè)線性判別函數(shù),對(duì)測(cè)試數(shù)據(jù)進(jìn)行
3、測(cè)試,得到測(cè)試數(shù)據(jù)的類(lèi)別。線性判別函數(shù)的一般形式可表示成 ,其中根據(jù)Fisher選擇投影方向W的原則,即使原樣本向量在該方向上的投影能兼顧類(lèi)間分布盡可能分開(kāi),類(lèi)內(nèi)樣本投影盡可能密集的要求,用以評(píng)價(jià)投影方向W的函數(shù)為: 上面的公式是使用Fisher準(zhǔn)則求最佳法線向量的解,該式比較重要。另外,該式這種形式的運(yùn)算,我們稱(chēng)為線性變換,其中式一個(gè)向量,是的逆矩陣,如是d維,和都是d×d維,得到的也是一個(gè)d維的向量。 向量就是使Fisher準(zhǔn)則函數(shù)達(dá)極大值的解,也就是按Fisher準(zhǔn)則將d維X空間投影到一維Y空間的最佳投
4、影方向,該向量的各分量值是對(duì)原d維特征向量求加權(quán)和的權(quán)值。以上討論了線性判別函數(shù)加權(quán)向量W的確定方法,并討論了使Fisher準(zhǔn)則函數(shù)極大的d維向量的計(jì)算方法,但是判別函數(shù)中的另一項(xiàng)尚未確定,一般可采用以下幾種方法確定如 或者 或當(dāng)與已知時(shí)可用 當(dāng)W0確定之后,則可按以下規(guī)則分類(lèi): 3、【實(shí)驗(yàn)內(nèi)容及要求】(1)、實(shí)驗(yàn)對(duì)象Datasetf1.TXT女生的身高、體重?cái)?shù)據(jù)Datasetm1.TXT男生的身高、體重?cái)?shù)據(jù)-----訓(xùn)練樣本集Dataset1.txt328個(gè)同學(xué)的身高、體重、性別數(shù)據(jù)Dataset2.
5、txt124個(gè)同學(xué)的身高、體重、性別數(shù)據(jù)-----測(cè)試樣本集(2)基本要求:(1)用Datasetf1.TXT和Datasetm1.TXT的數(shù)據(jù)作為訓(xùn)練樣本集,建立Bayes分類(lèi)器,用測(cè)試樣本數(shù)據(jù)對(duì)該分類(lèi)器進(jìn)行測(cè)試。調(diào)整特征、分類(lèi)器等方面的一些因素,考察它們對(duì)分類(lèi)器性能的影響,從而加深對(duì)所學(xué)內(nèi)容的理解和感性認(rèn)識(shí)。(試驗(yàn)直接設(shè)計(jì)線性分類(lèi)器的方法,與基于概率密度估計(jì)的貝葉斯分離器進(jìn)行比較)(2)試驗(yàn)非參數(shù)估計(jì),體會(huì)與參數(shù)估計(jì)在適用情況、估計(jì)結(jié)果方面的異同。4、【實(shí)驗(yàn)結(jié)果與分析】(1)、Bayes分類(lèi)器的實(shí)驗(yàn)結(jié)果與分析A、對(duì)
6、于Dataset1.txt328個(gè)同學(xué)的身高、體重、性別數(shù)據(jù)的測(cè)試樣本集:A1、當(dāng)先驗(yàn)概率為:男0.5,女0.5時(shí):身高分類(lèi)錯(cuò)誤個(gè)數(shù):15身高分類(lèi)錯(cuò)誤率為:12.10%體重分類(lèi)錯(cuò)誤個(gè)數(shù):15體重分類(lèi)錯(cuò)誤率為:12.10%【實(shí)驗(yàn)結(jié)果:】A2、當(dāng)先驗(yàn)概率為:男0.75,女0.25時(shí):身高分類(lèi)錯(cuò)誤個(gè)數(shù):19身高分類(lèi)錯(cuò)誤率為:15.32%體重分類(lèi)錯(cuò)誤個(gè)數(shù):14體重分類(lèi)錯(cuò)誤率為:11.29%B、對(duì)于Dataset2.txt124個(gè)同學(xué)的身高、體重、性別數(shù)據(jù)的測(cè)試樣本集:B1、當(dāng)先驗(yàn)概率為:男0.5,女0.5時(shí):身高分類(lèi)錯(cuò)誤個(gè)數(shù):
7、16身高分類(lèi)錯(cuò)誤率為:12.90%體重分類(lèi)錯(cuò)誤個(gè)數(shù):21體重分類(lèi)錯(cuò)誤率為:16.94%【實(shí)驗(yàn)結(jié)果:】B2、當(dāng)先驗(yàn)概率為:男0.75,女0.25時(shí):身高分類(lèi)錯(cuò)誤個(gè)數(shù):31身高分類(lèi)錯(cuò)誤率為:25.00%體重分類(lèi)錯(cuò)誤個(gè)數(shù):35體重分類(lèi)錯(cuò)誤率為:28.23%【結(jié)果分析:】Dataset1.txt樣本數(shù)據(jù)集中,男女先驗(yàn)概率為(0.71vs0.29);Dataset2.txt樣本數(shù)據(jù)集中,男女先驗(yàn)概率為(0.66vs0.34)。對(duì)比實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)身高的分類(lèi)錯(cuò)誤率都小于體重的分類(lèi)錯(cuò)誤率,樣本集越大,各個(gè)特征對(duì)應(yīng)的分類(lèi)錯(cuò)誤率就越小
8、。假設(shè)先驗(yàn)概率為(0.5vs0.5)的分類(lèi)錯(cuò)誤率小于假設(shè)先驗(yàn)概率為(0.75vs0.25)的分類(lèi)集,就算假設(shè)的先驗(yàn)概率與實(shí)際的很相近,可是結(jié)果不準(zhǔn)確。程序框圖Bayes分類(lèi)器源程序?qū)嶒?yàn)代碼:clearall;loaddatasetf1.txt;loaddatasetm1.txt;%樣本的分析figure;fori=1:250if(