歡迎來到天天文庫
瀏覽記錄
ID:60796704
大小:2.59 MB
頁數:25頁
時間:2020-12-19
《特征提取與選擇教學文案.ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、特征提取與選擇第五章特征選擇和提取特征選擇和提取重要性在很多實際問題中,往往不容易找到那些最重要的特征,或受客觀條件的限制,不能對它們進行有效的測量;因此在測量時,由于人們心理上的作用,只要條件許可總希望把特征取得多一些;另外,由于客觀上的需要,為了突出某些有用信息,抑制無用信息,有意加上一些比值、指數或對數等組合計算特征;如果將數目很多的測量值不做分析,全部直接用作分類特征,不但耗時,而且會影響到分類的效果,產生“特征維數災難”問題。第五章特征選擇和提取為了設計出效果好的分類器,通常需要對原始的測量值集合進行分析,
2、經過選擇或變換處理,組成有效的識別特征;在保證一定分類精度的前提下,減少特征維數,即進行“降維”處理,使分類器實現快速、準確和高效的分類。為達到上述目的,關鍵是所提供的識別特征應具有很好的可分性,使分類器容易判別。為此,需對特征進行選擇。應去掉模棱兩可、不易判別的特征;所提供的特征不要重復,即去掉那些相關性強且沒有增加更多分類信息的特征。第五章特征選擇和提取說明實際上,特征選擇和提取這一任務應在設計分類器之前進行。第五章特征選擇和提取所謂特征選擇,就是從n個度量值集合{x1,x2,…,xn}中,按某一準則選取出供分類
3、用的子集,作為降維(m維,m4、章特征選擇和提取以細胞自動識別為例(續(xù))這樣產生出來的原始特征可能很多(幾十甚至幾百個),原始特征空間維數很高,需要降低維數以便分類;一種方式是從原始特征中挑選出一些最有代表性的特征,稱為特征選擇;另一種方式是用映射(或變換)方法把原始特征變換為較少的特征,稱為特征提取。5.1模式類別可分性的測度距離和散布矩陣[點到點之間的距離][點到點集之間的距離][類內距離]5.1模式類別可分性的測度距離和散布矩陣[類內散布矩陣]對屬于同一類的模式樣本,類內散布矩陣表示各樣本點圍繞其均值周圍的散布情況,這里即為該分布的協方差矩陣5、。[類間距離和類間散布矩陣][多類模式集散布矩陣]以上各類散布矩陣反映了各類模式在模式空間的分布情況,但它們與分類的錯誤率沒有直接聯系。(若與分類錯誤率聯系起來,可采用散度作為類別可分性的度量)5.2特征選擇設有n個可用作分類的測量值,為了在不降低(或盡量不降低)分類精度的前提下,減小特征空間的維數以減少計算量,需從中直接選出m個作為分類的特征。問題:在n個測量值中選出哪一些作為分類特征,使其具有最小的分類錯誤?5.2特征選擇從n個測量值中選出m個特征,一共有中可能的選法。一種“窮舉”辦法:對每種選法都用訓練樣本試分6、類一下,測出其正確分類率,然后做出性能最好的選擇,此時需要試探的特征子集的種類達到種,非常耗時。需尋找一種簡便的可分性準則,間接判斷每一種子集的優(yōu)劣。對于獨立特征的選擇準則一般特征的散布矩陣準則5.2特征選擇對于獨立特征的選擇準則類別可分性準則應具有這樣的特點,即不同類別模式特征的均值向量之間的距離應最大,而屬于同一類的模式特征,其方差之和應最小。假設各原始特征測量值是統計獨立的,此時,只需對訓練樣本的n個測量值獨立地進行分析,從中選出m個最好的作為分類特征即可。[例:對于?i和?j兩類訓練樣本的特征選擇]5.2特征7、選擇討論:上述基于距離測度的可分性準則,其適用范圍與模式特征的概率分布有關。三種不同模式分布的情況(a)中特征xk的分布有很好的可分性,通過它足以分離?i和?j兩種類別;(b)中的特征分布有很大的重疊,單靠xk達不到較好的分類,需要增加其它特征;(c)中的?i類特征xk的分布有兩個最大值,雖然它與?j的分布沒有重疊,但計算Gk約等于0,此時再利用Gk作為可分性準則已不合適。因此,假若類概率密度函數不是或不近似正態(tài)分布,均值和方差就不足以用來估計類別的可分性,此時該準則函數不完全適用。5.2特征選擇一般特征的散布矩陣準8、則[類內、類間和總體的散布矩陣Sw、Sb和St]Sw的行列式值越小且Sb的行列式值越大,可分性越好。[散布矩陣準則J1和J2形式]使J1或J2最大的子集可作為所選擇的分類特征。注:這里計算的散布矩陣不受模式分布形式的限制,但需要有足夠數量的模式樣本才能獲得有效的結果。作業(yè)設有如下三類模式樣本集ω1,ω2和ω3,其先驗概率相等,求Sw和Sbω1:
4、章特征選擇和提取以細胞自動識別為例(續(xù))這樣產生出來的原始特征可能很多(幾十甚至幾百個),原始特征空間維數很高,需要降低維數以便分類;一種方式是從原始特征中挑選出一些最有代表性的特征,稱為特征選擇;另一種方式是用映射(或變換)方法把原始特征變換為較少的特征,稱為特征提取。5.1模式類別可分性的測度距離和散布矩陣[點到點之間的距離][點到點集之間的距離][類內距離]5.1模式類別可分性的測度距離和散布矩陣[類內散布矩陣]對屬于同一類的模式樣本,類內散布矩陣表示各樣本點圍繞其均值周圍的散布情況,這里即為該分布的協方差矩陣
5、。[類間距離和類間散布矩陣][多類模式集散布矩陣]以上各類散布矩陣反映了各類模式在模式空間的分布情況,但它們與分類的錯誤率沒有直接聯系。(若與分類錯誤率聯系起來,可采用散度作為類別可分性的度量)5.2特征選擇設有n個可用作分類的測量值,為了在不降低(或盡量不降低)分類精度的前提下,減小特征空間的維數以減少計算量,需從中直接選出m個作為分類的特征。問題:在n個測量值中選出哪一些作為分類特征,使其具有最小的分類錯誤?5.2特征選擇從n個測量值中選出m個特征,一共有中可能的選法。一種“窮舉”辦法:對每種選法都用訓練樣本試分
6、類一下,測出其正確分類率,然后做出性能最好的選擇,此時需要試探的特征子集的種類達到種,非常耗時。需尋找一種簡便的可分性準則,間接判斷每一種子集的優(yōu)劣。對于獨立特征的選擇準則一般特征的散布矩陣準則5.2特征選擇對于獨立特征的選擇準則類別可分性準則應具有這樣的特點,即不同類別模式特征的均值向量之間的距離應最大,而屬于同一類的模式特征,其方差之和應最小。假設各原始特征測量值是統計獨立的,此時,只需對訓練樣本的n個測量值獨立地進行分析,從中選出m個最好的作為分類特征即可。[例:對于?i和?j兩類訓練樣本的特征選擇]5.2特征
7、選擇討論:上述基于距離測度的可分性準則,其適用范圍與模式特征的概率分布有關。三種不同模式分布的情況(a)中特征xk的分布有很好的可分性,通過它足以分離?i和?j兩種類別;(b)中的特征分布有很大的重疊,單靠xk達不到較好的分類,需要增加其它特征;(c)中的?i類特征xk的分布有兩個最大值,雖然它與?j的分布沒有重疊,但計算Gk約等于0,此時再利用Gk作為可分性準則已不合適。因此,假若類概率密度函數不是或不近似正態(tài)分布,均值和方差就不足以用來估計類別的可分性,此時該準則函數不完全適用。5.2特征選擇一般特征的散布矩陣準
8、則[類內、類間和總體的散布矩陣Sw、Sb和St]Sw的行列式值越小且Sb的行列式值越大,可分性越好。[散布矩陣準則J1和J2形式]使J1或J2最大的子集可作為所選擇的分類特征。注:這里計算的散布矩陣不受模式分布形式的限制,但需要有足夠數量的模式樣本才能獲得有效的結果。作業(yè)設有如下三類模式樣本集ω1,ω2和ω3,其先驗概率相等,求Sw和Sbω1:
此文檔下載收益歸作者所有