資源描述:
《《特征提取和選擇》PPT課件.pptx》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第5章特征提取和選擇5.1引言5.2基本概念5.3類別可分性判據(jù)5.4基于可分性判據(jù)的特征提取5.5主分量分析(PCA)在模式識別領(lǐng)域,特征的提取與選擇是最關(guān)鍵的問題之一,同時也是最困難的問題之一。不同的模式識別應(yīng)用,需要采用不同的特征提取與選擇方法。對于實際的模式識別問題,以人臉識別為例,一開始的原始特征可能很多,如在人臉數(shù)據(jù)庫中,每幅圖像的分辨率為112?92,即高達10304維。若把所有的原始特征都作為分類特征送到分類器,不僅使得分類器復(fù)雜,分類判別計算量大,而且分類錯誤概率也不一定小;原始特征的特征空間有很大的
2、冗余,完全可以用很小的空間相當(dāng)好地近似表示圖像,這一點與壓縮的思想類似。因此有必要減少特征數(shù)目,以獲取“少而精”的分類特征,即獲取特征數(shù)目少且能使分類錯誤概率小的特征向量。模式識別中減少特征數(shù)目(或壓縮特征空間)的方法有兩種:一種是特征提取,另一種是特征選擇。5.1引言在模式識別系統(tǒng)中,確定分類和學(xué)習(xí)過程所使用的特征是非常重要的一個環(huán)節(jié),獲得對分類最有效的特征,同時盡最大可能減少特征維數(shù),是特征選取的主要任務(wù)。特征選取可以分成原始特診的采集和轉(zhuǎn)換、有效特征的生成兩個步驟。原始特征:通過直接測量得到的特征稱為原始特征。比
3、如人體的各種生理指標(描述其健康狀況);數(shù)字圖像中的每點灰度值(以描述圖像內(nèi)容),都是原始特征。特征提?。和ㄟ^映射(變換)的方法把高維的特征向量變換為低維的特征向量。通過特征提取獲得的特征是原始特征集的某種組合,即A:X→Y,可見新的特征中包含有原有全體特征的信息。特征選擇:從原始特征中挑選出一些最有代表性、分類性能好的特征以達到降低特征空間維數(shù)的目的。也就是說,特征選擇就是從已有的D個原始特征中挑選出d個特征組成一個特征子集,同時將D-d個對類別可分離性無貢獻的或貢獻不大的特征簡單地忽略掉。特征提取與具體問題有很大關(guān)
4、系,目前沒有理論能給出對任何問題都有效的特征提取方法。?如:?用傅立葉變換或小波變換的系數(shù)作為圖像的特征;??用PCA方法作特征壓縮;??用LDA(線性判別分析,LinearDiscriminantAnalysis)方法作特征壓縮。5.2基本概念1.特征的特點模式識別的主要功能在于利用計算機實現(xiàn)人的類識別能力,它是一個與領(lǐng)域?qū)iT知識有關(guān)的問題。研究領(lǐng)域不同,選擇的特征也不同,但不論采用什么樣的特征,都應(yīng)該滿足如下條件:(1)特征可以獲取模式識別系統(tǒng)的主要處理設(shè)備是計算機,因此作為觀察對象的數(shù)字化表達,觀察對象應(yīng)該是可以
5、通過數(shù)據(jù)采集設(shè)備輸入到計算機的。目前,市場上有各種傳感設(shè)備和數(shù)字化設(shè)備,如采集圖像信息的圖像卡和采集語音信息的聲卡等。作為特征,既可以是數(shù)字化表達的結(jié)果,也可以是在數(shù)字化表達基礎(chǔ)上形成的參數(shù)性質(zhì)的值,如圖像分割后的子目標特征表達等。(2)類內(nèi)穩(wěn)定選擇的特征對同一類應(yīng)具有穩(wěn)定性。由于模式類是由具有相似特性的若干個模式構(gòu)成的,因此它們同屬一類模式,其首要前提是特性相似,反映在取值上,就應(yīng)該有較好的穩(wěn)定性。(3)類間差異選擇的特征對不同的類應(yīng)該有差異。若不同類的模式的特征值差異很小,則說明所選擇的特征對于不同的類沒有什么差異
6、,作為分類的依據(jù)時,容易使不同的類產(chǎn)生混淆,使誤識率增大。一般來講,特征的類間差異應(yīng)該大于類內(nèi)差異。(1)具有很大的識別信息量。即應(yīng)具有很好的可分性。(2)具有可靠性。模棱兩可、似是而非、時是時非等不易判別的特征應(yīng)丟掉。(3)盡可能強的獨立性。重復(fù)的、相關(guān)性強的特征只選一個。(4)數(shù)量盡量少,同時損失的信息盡量小。2.對特征的要求3.特征的類別特征是用于描述模式性質(zhì)的一種量,從形式上看可以分為三類:(1)物理特征物理特征是比較直接、人們?nèi)菀赘兄奶卣?,一般在設(shè)計模式識別系統(tǒng)時容易被選用。如為了描述指定班級中的某個學(xué)
7、生,可以用以下物理特征:性別、身高、胖瘦、膚色等外在特征。物理特征雖然容易感知,卻未必能非常有效地表征分類對象。(2)結(jié)構(gòu)特征結(jié)構(gòu)特征的表達能力一般要高于物理特征,如漢字識別的成功實現(xiàn)離不開結(jié)構(gòu)特征的選擇。結(jié)構(gòu)特征的表達是先將觀察對象分割成若干個基本構(gòu)成要素,再確定基本要素間的相互連接關(guān)系。通過要素和相互連接關(guān)系表達對象,可以較好地表達復(fù)雜的圖像信息,在實際中已經(jīng)有較多的成功應(yīng)用,如指紋的識別就是基于結(jié)構(gòu)信息完成的。結(jié)構(gòu)信息對對象的尺寸往往不太敏感,如漢字識別時,識別系統(tǒng)對漢字大小不敏感,只對筆劃結(jié)構(gòu)信息敏感。結(jié)構(gòu)
8、特征比物理特征要抽象一些,但仍屬比較容易感知的特征,如人的指紋特征、人臉的五官結(jié)構(gòu)信息等,是目前認定人的身份的重要參數(shù)。(3)數(shù)字特征一般來說,數(shù)字特征是為了表征觀察對象而設(shè)立的特征,如給每個學(xué)生設(shè)立一個學(xué)號,作為標志每個學(xué)生的特征。由于學(xué)號是人為設(shè)定的,可保證唯一性,但這種特征是抽象的,不容易被人感知。數(shù)字特征有時和觀察對象的