基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究

基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究

ID:26836783

大?。?2.50 KB

頁數(shù):7頁

時間:2018-11-29

基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究_第1頁
基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究_第2頁
基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究_第3頁
基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究_第4頁
基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究_第5頁
資源描述:

《基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究摘要通過分析當(dāng)今說話人識別系統(tǒng)中常用的語音特征和基本的說話人識別方法,本文采用多門限多判決的動態(tài)時間規(guī)整算法作為識別方法,并提取出美爾頻率倒譜及其差分、線性預(yù)測倒譜及其差分、基音周期、短時譜的臨界帶特征矢量和子帶能量倒譜等多種語音特征進(jìn)行互相組合,找出了相應(yīng)于該識別方法的最優(yōu)特征組合。關(guān)鍵詞說話人識別;動態(tài)時間規(guī)整;特征組合1引言說話人識別是語音識別的一個分支,在公安偵察、聲控系統(tǒng)、醫(yī)療診斷、電子金融業(yè)務(wù)等方面有著廣泛的應(yīng)用前景。它和語音識別的區(qū)別在于,它

2、并不注意語音信號中的語義內(nèi)容,而是希望從語音信號中提取出個人的信息特征。從這點上說,說話人識別是企求挖掘出包含在語音信號中的個性因素。而語音識別是企求從不同人的語音信號中尋找共同因素。通過分析前人對說話人識別的工作總結(jié),為了進(jìn)一步提高識別率,本文采用了多門限多判決的改進(jìn)的動態(tài)規(guī)整(dynamictimeFCC及其差分系數(shù)△MFCC、12維的線性預(yù)測倒譜參數(shù)(LPCC)及其差分系數(shù)△LPCC、12維的美爾線性預(yù)測差分倒譜系數(shù)[1](LPCMCC)、基音周期P及其差分△P、18維的短時譜的臨界帶特征矢量[1](本文用

3、GL表示)和子帶能量倒譜[6](Sub-bandMFCC,本文用SBC表示)系數(shù)及其差分(△SBC)。其中,本文是采用自相關(guān)方法提取的基音周期,并運用了二次平滑算法[1]去除了基音軌跡中的“野點”。在提取子帶能量倒譜時,本文是將語音信號按照Mel刻度在樹結(jié)構(gòu)中的多級子帶分解為11個子帶信號進(jìn)行計算的。3說話人識別方法3.1動態(tài)時間規(guī)整算法動態(tài)時間規(guī)整匹配是基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的匹配問題,把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)正技術(shù),是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。設(shè)測試語音參數(shù)

4、共有I幀矢量,則測試語音模板的特征矢量序列為X=(X1、X2、…、XI),參考語音參數(shù)共有J幀,則參考模板的特征矢量序列為Y=(Y1、Y2、…、YJ)。且I≠J,則動態(tài)時間規(guī)整就是要找到一個時間規(guī)整函數(shù)j=w(i),將測試矢量的時間軸i非線性地映射到參考模板的時間軸j上,并使該函數(shù)w滿足下式:(3.1)其中,是第i幀測試矢量Xi和第j幀模板矢量Yj之間的距離測度,一般這個距離測度采用歐氏距離的平方,如(3.2)式所示。D則是處于最優(yōu)時間規(guī)整情況下兩矢量的距離。(3.2)其中Xi=(xi1,xi2,xi3,…,xi

5、N),Yj=(yj1,yj2,yj3,…,yjN),N是特征矢量維數(shù)。實際應(yīng)用中,DTW一般采用動態(tài)規(guī)劃技術(shù)(DP)來實現(xiàn)[1]。動態(tài)規(guī)劃是一種最優(yōu)化算法,其原理如圖1所示。將測試模板的各幀i=1,2,......,I作為二維直角坐標(biāo)系的橫軸,參考模板的各幀號j=1,2,......,J作為縱軸。通常規(guī)整函數(shù)w(i)被限制在一個平行四邊形內(nèi),如圖1,它的一條邊的斜率為2,另一條邊的斜率為1/2。規(guī)整函數(shù)的起始點為(1,1),終止點為(I,J),即W(1)=1,W(I)=J。的斜率為0、1或2;否則就為1或2。這是

6、一種簡單的局部路徑限制。求最佳路徑問題可以歸結(jié)為滿足局部路徑約束條件,使得沿路徑的累積距離最小。搜索該路徑的方法:從(1,1)點出發(fā),可以展開若干條滿足局部路徑約束條件的路徑。假設(shè)可以計算每條路徑達(dá)到(I,J)點時的總的累積距離,具有最小累積距離者即為最佳路徑。這個最小累積距離即為測試語音模板與參考模板語音之間的距離。則與測試模板距離最小的參考模板對應(yīng)的說話人即判為識別結(jié)果。3.2改進(jìn)的多門限多判決的動態(tài)時間規(guī)整方法很顯然,在模板庫中總的詞條數(shù)目不變時,增加模板的數(shù)量會提高識別率,但是模板數(shù)目的增加也會帶來系統(tǒng)響

7、應(yīng)速度變慢的問題。因此,本文在說話人辨認(rèn)系統(tǒng)中采取了多門限多次判決方法[2],系統(tǒng)參考模板庫中共存有四套模板。輸入語音構(gòu)成的測試模板先跟第一套模板進(jìn)行匹配,求出與每個模板的最佳匹配距離,距離最小者作為候選輸出。設(shè)定一個拒絕門限,若最小匹配距離也大于該門限,則表明該輸入語音不在語音庫范圍內(nèi),停止下一步匹配,結(jié)果判該輸入語音對應(yīng)的說話人為庫外人員。另外再設(shè)一個接受門限,若匹配距離小于該門限,則候選輸出為正式的輸出;否則,再進(jìn)行第二輪匹配,即與第二套模板進(jìn)行匹配.這樣一直到第四套模板,如果此時還沒有得到理想的輸出,則可

8、綜合評價四次匹配結(jié)果,得出最后的輸出結(jié)果。此外,為了減少多輪匹配的計算量,定義一個差別閾值[2],在每輪匹配結(jié)束后,計算最小匹配距離與其他模板匹配距離的差別,若所有的差別均大于差別閾值,則表明輸入模板與候選輸出模板較其他模板有很大的相似性,可以作為正式的輸出。若仍有模板的差別小于差別閾值,則表明這些模板與候選輸出模板之間還可能存在混淆,需待下一輪匹配進(jìn)行澄清。因此在下一輪

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。