5-特征提取與選擇.ppt

5-特征提取與選擇.ppt

ID:48406418

大?。?06.00 KB

頁數(shù):81頁

時間:2020-01-19

5-特征提取與選擇.ppt_第1頁
5-特征提取與選擇.ppt_第2頁
5-特征提取與選擇.ppt_第3頁
5-特征提取與選擇.ppt_第4頁
5-特征提取與選擇.ppt_第5頁
資源描述:

《5-特征提取與選擇.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第五章特征的選擇與提取§1類別可分離性判據(jù)§2特征提取§3特征選擇特征提取與選擇的基本任務(wù)是研究如何從眾多特征中求出那些對分類識別最有效的特征,從而實現(xiàn)特征空間維數(shù)的壓縮,即獲取一組“少而精”且分類錯誤概率小的分類待征.可以把特征分為三類1物理的;2結(jié)構(gòu)的;3數(shù)學(xué)的。分類器x1x2x3..xd對象選擇.提取模式的特征的有效性直接影響分類器的設(shè)計和性能.由信息獲取部分獲得的原始數(shù)據(jù)量一般是相當大的.為了有效地實現(xiàn)分類識別,要對原始數(shù)據(jù)進行選擇或變換,得到最能反應(yīng)分類本質(zhì)的待征,構(gòu)成特征向量.這就是特征抽取與選擇的過程.傳感器y1y2y3..ym學(xué)習(xí).訓(xùn)練在一個較完善

2、的模式識別系統(tǒng)中,明顯或隱含的要有特征提取與選擇技術(shù)環(huán)節(jié),其通常處于對象特征數(shù)據(jù)采集和分類識別兩個環(huán)節(jié)之間.基本概念特征選擇:從一組特征中挑選出一些最有效的特征以達到降低特征空間維數(shù)的目的,這個過程叫特征選擇。特征提?。簩⒁唤M高維特征,通過變換的方法得到一組新的低維特征,這個過程叫特征提取。特征形成:根據(jù)被識別的對象產(chǎn)生出一組基本特征(也可稱為原始特征),它可以是計算出來的,也可以是用儀表或傳感器測量出來的。特征提取:模式空間特征空間高維低維特征選擇:特征集特征子集變換挑選特征提取器特征選擇器說明:有時特征提取和選擇并不是截然分開的。例如,可以先將原始特征空間映射

3、到維數(shù)較低的空間,在這個空間中再進行選擇以進一步降低維數(shù);也可以先經(jīng)過選擇去掉那些明顯沒有分類信息的特征,再進行映射以降低維數(shù)。即在模式識別中,特征提取與特征選擇作為兩個過程,它們的先后次序并不是固定不變的。在處理實際問題時,可以根據(jù)具體情況決定先進行哪一個過程。本章討論特征的選擇與提取方法.特征提取特征選擇§1類別可分離性判據(jù)1.準則函數(shù)-判據(jù)2.基于類間距離的可分性判據(jù)3.基于概率分布的可分性判據(jù)4.基于熵函數(shù)的可分性判據(jù)1.準則函數(shù)特征選擇與提取的任務(wù)是求出一組對分類最有效的特征,因此我們需要一個定量的準則(或稱判據(jù))來衡量特征對分類的有效性。由于直接用錯誤

4、概率作為標準來分析特征的有效性比較困難我們希望找出另外一些更實用的準則來衡量備類間的可分性,并希望可分性準則滿足下列幾條要求1)與錯誤概率(或它的上下界)有單調(diào)關(guān)系2)當特征獨立時有可加性3)度量特性(非負性,互反性)4)單調(diào)性,即加入新的特征時,判據(jù)不減小2.類內(nèi)類間距離各類樣本可以分開是因為它們位于特征空間的不同區(qū)域,顯然這些區(qū)域之間距離越大,類別可分性就越大?;舅枷耄嚎紤]最簡單的兩類情況,ω1和ω2,ω1中任一點與ω2中的每一點都有一個距離,把所有這些距離相加求平均,可用這個均值來代表這兩類之間的距離,多類情況是基于它的推導(dǎo)。如何表示兩個類區(qū)之間的距離?我

5、們定義各類特征向量之間的平均距離為:代入化簡可得說明基于類內(nèi)類間距離的可分離性判據(jù)是一種常用的判據(jù),它實際上是各類向量之間的平均距離。2)具體而言,即J(x)表示各類特征向量之間的平均距離,我們通常認為J(x)越大,可分離性越好。3)這種判據(jù)優(yōu)點是計算簡單;缺點是當類間距離較小,類內(nèi)距離較大時,判據(jù)仍有可能取得較大的值,而此時的可分離性并不大。3.基于概率分布的可分性判據(jù)上面介紹的距離準則是直接從各類樣本間的距離算出的,沒有考慮各類的概率分布,不能確切表明各類交疊的情況,因此與錯誤概率沒有直接聯(lián)系,下面提出一些基于概率分布的可分性判據(jù).兩個分布密度函數(shù)之間的距離任

6、何函數(shù)J,如果滿足下述條件,都可用來作為類分離性的概率距離度量。1)J具有非負性2)當兩類完全不交疊時,J取最大值3)當兩類分布密度相同時,J應(yīng)為0如圖所示,圖1表示兩類為完全可分的情況,而圖2則表示兩類完全不可分的。P(x∣ω1)=P(x∣ω2)圖2圖1P(x∣ω1)P(x∣ω2)=0(1)Bhattacharyya距離注:s是在[0,1]區(qū)間取值的一個參數(shù),當s=0.5時,上述二者相等(2)Chernoff距離定義散度等于各類平均可分信息之和:(3)散度對數(shù)似然比可以提供ω1類對ω2類的可分性信息ω1類對ω2類的平均可分性信息為4.基于熵函數(shù)的可分性判據(jù)最佳分

7、類器由后驗概率確定,所以可由特征的后驗概率分布來衡量它對分類的有效性。兩種特殊情形下最佳分類器的錯誤率:1)各類后驗概率是相等錯誤率錯誤率可見后驗概率越集中,錯誤概率就越小.后驗概率分布越平緩(接近均勻分布),則分類錯誤概率就越大.設(shè)ω為可能取值為ωi,(i=1,2,…,c)的一個隨機變量,它的取值依賴于分布密度為p(x)的隨機向量x(特征向量),即給定x后ω的概率為p(ω/x).為了衡量后驗概率分布的集中程度,需要規(guī)定一個定量準則.我們可以借助于信息論中關(guān)于熵的概念.我們想知道的是:給定某一x后,我們從觀察得到的結(jié)果中得到了多少信息?或者說ω的不確定性減少了多少

8、?從特征提

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。