資源描述:
《第04章_判別分析.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第四章判別分析第一節(jié)引言第二節(jié)距離判別法第三節(jié)貝葉斯(Bayes)判別法第四節(jié)費(fèi)歇(Fisher)判別法第五節(jié)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)第一節(jié)引言在我們的日常生活和工作實(shí)踐中,常常會遇到判別分析問題,即根據(jù)歷史上劃分類別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個新的樣本歸屬哪一類。例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個患者若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)?,F(xiàn)在想利用現(xiàn)有的這些資料找出一種方法,使得對于一個新的病人,當(dāng)測得這些癥狀指標(biāo)數(shù)據(jù)時,能夠判定其患有哪種病。又如,在天氣預(yù)報(bào)
2、中,我們有一段較長時間關(guān)于某地區(qū)每天氣象的記錄資料(晴陰雨、氣溫、氣壓、濕度等),現(xiàn)在想建立一種用連續(xù)五天的氣象資料來預(yù)報(bào)第六天是什么天氣的方法。這些問題都可以應(yīng)用判別分析方法予以解決。把這類問題用數(shù)學(xué)語言來表達(dá),可以敘述如下:設(shè)有n個樣本,對每個樣本測得p項(xiàng)指標(biāo)(變量)的數(shù)據(jù),已知每個樣本屬于k個類別(或總體)G1,G2,…,Gk中的某一類,且它們的分布函數(shù)分別為F1(x),F(xiàn)2(x),…,F(xiàn)k(x)。我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可
3、能地區(qū)別開來,并對測得同樣p項(xiàng)指標(biāo)(變量)數(shù)據(jù)的一個新樣本,能判定這個樣本歸屬于哪一類。判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分,有兩個總體判別分析和多總體判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;按判別時所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、Fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,按判別準(zhǔn)則的不同又提出多種判別方法。本章僅介紹常用的幾
4、種判別分析方法:距離判別法、Fisher判別法、Bayes判別法和逐步判別法。第二節(jié)距離判別法一馬氏距離的概念二距離判別的思想及方法三判別分析的實(shí)質(zhì)一、馬氏距離的概念圖4.1為此,我們引入一種由印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(Mahalanobis,1936)提出的“馬氏距離”的概念。二、距離判別的思想及方法1、兩個總體的距離判別問題問題:設(shè)有協(xié)方差矩陣∑相等的兩個總體G1和G2,其均值分別是?1和?2,對于一個新的樣品X,要判斷它來自哪個總體。一般的想法是計(jì)算新樣品X到兩個總體的馬氏距離D2(X,G1
5、)和D2(X,G2),并按照如下的判別規(guī)則進(jìn)行判斷這個判別規(guī)則的等價描述為:求新樣品X到G1的距離與到G2的距離之差,如果其值為正,X屬于G2;否則X屬于G1。我們考慮這里我們應(yīng)該注意到:2、多個總體的距離判別問題三、判別分析的實(shí)質(zhì)我們知道,判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來。為了更清楚的認(rèn)識判別分析的實(shí)質(zhì),以便能靈活的應(yīng)用判別分析方法解決實(shí)際問題,我們有必要了解“劃分”這樣概念。設(shè)R1,R2,…,Rk是p維
6、空間Rp的k個子集,如果它們互不相交,且它們的和集為Rp,則稱R1,R2,…,Rk為Rp的一個劃分。這樣我們將會發(fā)現(xiàn),判別分析問題實(shí)質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對p維空間Rp構(gòu)造一個“劃分”,這個“劃分”就構(gòu)成了一個判別規(guī)則。這一思想將在后面的各節(jié)中體現(xiàn)的更加清楚。例在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)。考核企業(yè)經(jīng)營狀況的指標(biāo)有:資金利潤率=利潤總額/資金占用總額勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值三個指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二
7、個企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個企業(yè)應(yīng)該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41勞動生產(chǎn)率40.729.840.2454.5811.67產(chǎn)品凈值率10.76.221.4111.677.90線性判別函數(shù)為:錯判概率:由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會發(fā)生誤判。距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當(dāng)參數(shù)和協(xié)方差未知時,就用樣本的均值和協(xié)方差矩陣
8、來估計(jì)。距離判別方法簡單實(shí)用,但沒有考慮到每個總體出現(xiàn)的機(jī)會大小,即先驗(yàn)概率,也沒有考慮到錯判的損失。貝葉斯判別法正是為了解決這兩個問題提出的判別分析方法。第三節(jié)貝葉斯(Bayes)判別法一Bayes判別的基本思想二Bayes判別的基本方法辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2