特征提取與選擇教學(xué)文案.ppt

特征提取與選擇教學(xué)文案.ppt

ID:60796704

大小:2.59 MB

頁(yè)數(shù):25頁(yè)

時(shí)間:2020-12-19

特征提取與選擇教學(xué)文案.ppt_第1頁(yè)
特征提取與選擇教學(xué)文案.ppt_第2頁(yè)
特征提取與選擇教學(xué)文案.ppt_第3頁(yè)
特征提取與選擇教學(xué)文案.ppt_第4頁(yè)
特征提取與選擇教學(xué)文案.ppt_第5頁(yè)
資源描述:

《特征提取與選擇教學(xué)文案.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、特征提取與選擇第五章特征選擇和提取特征選擇和提取重要性在很多實(shí)際問(wèn)題中,往往不容易找到那些最重要的特征,或受客觀條件的限制,不能對(duì)它們進(jìn)行有效的測(cè)量;因此在測(cè)量時(shí),由于人們心理上的作用,只要條件許可總希望把特征取得多一些;另外,由于客觀上的需要,為了突出某些有用信息,抑制無(wú)用信息,有意加上一些比值、指數(shù)或?qū)?shù)等組合計(jì)算特征;如果將數(shù)目很多的測(cè)量值不做分析,全部直接用作分類特征,不但耗時(shí),而且會(huì)影響到分類的效果,產(chǎn)生“特征維數(shù)災(zāi)難”問(wèn)題。第五章特征選擇和提取為了設(shè)計(jì)出效果好的分類器,通常需要對(duì)原始的測(cè)量值集合進(jìn)行分析,

2、經(jīng)過(guò)選擇或變換處理,組成有效的識(shí)別特征;在保證一定分類精度的前提下,減少特征維數(shù),即進(jìn)行“降維”處理,使分類器實(shí)現(xiàn)快速、準(zhǔn)確和高效的分類。為達(dá)到上述目的,關(guān)鍵是所提供的識(shí)別特征應(yīng)具有很好的可分性,使分類器容易判別。為此,需對(duì)特征進(jìn)行選擇。應(yīng)去掉模棱兩可、不易判別的特征;所提供的特征不要重復(fù),即去掉那些相關(guān)性強(qiáng)且沒(méi)有增加更多分類信息的特征。第五章特征選擇和提取說(shuō)明實(shí)際上,特征選擇和提取這一任務(wù)應(yīng)在設(shè)計(jì)分類器之前進(jìn)行。第五章特征選擇和提取所謂特征選擇,就是從n個(gè)度量值集合{x1,x2,…,xn}中,按某一準(zhǔn)則選取出供分類

3、用的子集,作為降維(m維,m

4、章特征選擇和提取以細(xì)胞自動(dòng)識(shí)別為例(續(xù))這樣產(chǎn)生出來(lái)的原始特征可能很多(幾十甚至幾百個(gè)),原始特征空間維數(shù)很高,需要降低維數(shù)以便分類;一種方式是從原始特征中挑選出一些最有代表性的特征,稱為特征選擇;另一種方式是用映射(或變換)方法把原始特征變換為較少的特征,稱為特征提取。5.1模式類別可分性的測(cè)度距離和散布矩陣[點(diǎn)到點(diǎn)之間的距離][點(diǎn)到點(diǎn)集之間的距離][類內(nèi)距離]5.1模式類別可分性的測(cè)度距離和散布矩陣[類內(nèi)散布矩陣]對(duì)屬于同一類的模式樣本,類內(nèi)散布矩陣表示各樣本點(diǎn)圍繞其均值周圍的散布情況,這里即為該分布的協(xié)方差矩陣

5、。[類間距離和類間散布矩陣][多類模式集散布矩陣]以上各類散布矩陣反映了各類模式在模式空間的分布情況,但它們與分類的錯(cuò)誤率沒(méi)有直接聯(lián)系。(若與分類錯(cuò)誤率聯(lián)系起來(lái),可采用散度作為類別可分性的度量)5.2特征選擇設(shè)有n個(gè)可用作分類的測(cè)量值,為了在不降低(或盡量不降低)分類精度的前提下,減小特征空間的維數(shù)以減少計(jì)算量,需從中直接選出m個(gè)作為分類的特征。問(wèn)題:在n個(gè)測(cè)量值中選出哪一些作為分類特征,使其具有最小的分類錯(cuò)誤?5.2特征選擇從n個(gè)測(cè)量值中選出m個(gè)特征,一共有中可能的選法。一種“窮舉”辦法:對(duì)每種選法都用訓(xùn)練樣本試分

6、類一下,測(cè)出其正確分類率,然后做出性能最好的選擇,此時(shí)需要試探的特征子集的種類達(dá)到種,非常耗時(shí)。需尋找一種簡(jiǎn)便的可分性準(zhǔn)則,間接判斷每一種子集的優(yōu)劣。對(duì)于獨(dú)立特征的選擇準(zhǔn)則一般特征的散布矩陣準(zhǔn)則5.2特征選擇對(duì)于獨(dú)立特征的選擇準(zhǔn)則類別可分性準(zhǔn)則應(yīng)具有這樣的特點(diǎn),即不同類別模式特征的均值向量之間的距離應(yīng)最大,而屬于同一類的模式特征,其方差之和應(yīng)最小。假設(shè)各原始特征測(cè)量值是統(tǒng)計(jì)獨(dú)立的,此時(shí),只需對(duì)訓(xùn)練樣本的n個(gè)測(cè)量值獨(dú)立地進(jìn)行分析,從中選出m個(gè)最好的作為分類特征即可。[例:對(duì)于?i和?j兩類訓(xùn)練樣本的特征選擇]5.2特征

7、選擇討論:上述基于距離測(cè)度的可分性準(zhǔn)則,其適用范圍與模式特征的概率分布有關(guān)。三種不同模式分布的情況(a)中特征xk的分布有很好的可分性,通過(guò)它足以分離?i和?j兩種類別;(b)中的特征分布有很大的重疊,單靠xk達(dá)不到較好的分類,需要增加其它特征;(c)中的?i類特征xk的分布有兩個(gè)最大值,雖然它與?j的分布沒(méi)有重疊,但計(jì)算Gk約等于0,此時(shí)再利用Gk作為可分性準(zhǔn)則已不合適。因此,假若類概率密度函數(shù)不是或不近似正態(tài)分布,均值和方差就不足以用來(lái)估計(jì)類別的可分性,此時(shí)該準(zhǔn)則函數(shù)不完全適用。5.2特征選擇一般特征的散布矩陣準(zhǔn)

8、則[類內(nèi)、類間和總體的散布矩陣Sw、Sb和St]Sw的行列式值越小且Sb的行列式值越大,可分性越好。[散布矩陣準(zhǔn)則J1和J2形式]使J1或J2最大的子集可作為所選擇的分類特征。注:這里計(jì)算的散布矩陣不受模式分布形式的限制,但需要有足夠數(shù)量的模式樣本才能獲得有效的結(jié)果。作業(yè)設(shè)有如下三類模式樣本集ω1,ω2和ω3,其先驗(yàn)概率相等,求Sw和Sbω1:

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。