基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究

ID：26836783

大小：52.50 KB

頁(yè)數(shù)：7頁(yè)

時(shí)間：2018-11-29

基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究_第1頁(yè)

基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究_第2頁(yè)

基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究_第3頁(yè)

基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究_第4頁(yè)

基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究_第5頁(yè)

資源描述：

《基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究摘要通過(guò)分析當(dāng)今說(shuō)話人識(shí)別系統(tǒng)中常用的語(yǔ)音特征和基本的說(shuō)話人識(shí)別方法，本文采用多門(mén)限多判決的動(dòng)態(tài)時(shí)間規(guī)整算法作為識(shí)別方法，并提取出美爾頻率倒譜及其差分、線性預(yù)測(cè)倒譜及其差分、基音周期、短時(shí)譜的臨界帶特征矢量和子帶能量倒譜等多種語(yǔ)音特征進(jìn)行互相組合，找出了相應(yīng)于該識(shí)別方法的最優(yōu)特征組合。關(guān)鍵詞說(shuō)話人識(shí)別；動(dòng)態(tài)時(shí)間規(guī)整；特征組合1引言說(shuō)話人識(shí)別是語(yǔ)音識(shí)別的一個(gè)分支，在公安偵察、聲控系統(tǒng)、醫(yī)療診斷、電子金融業(yè)務(wù)等方面有著廣泛的應(yīng)用前景。它和語(yǔ)音識(shí)別的區(qū)別在于，它

2、并不注意語(yǔ)音信號(hào)中的語(yǔ)義內(nèi)容，而是希望從語(yǔ)音信號(hào)中提取出個(gè)人的信息特征。從這點(diǎn)上說(shuō)，說(shuō)話人識(shí)別是企求挖掘出包含在語(yǔ)音信號(hào)中的個(gè)性因素。而語(yǔ)音識(shí)別是企求從不同人的語(yǔ)音信號(hào)中尋找共同因素。通過(guò)分析前人對(duì)說(shuō)話人識(shí)別的工作總結(jié)，為了進(jìn)一步提高識(shí)別率，本文采用了多門(mén)限多判決的改進(jìn)的動(dòng)態(tài)規(guī)整（dynamictimeFCC及其差分系數(shù)△MFCC、12維的線性預(yù)測(cè)倒譜參數(shù)（LPCC）及其差分系數(shù)△LPCC、12維的美爾線性預(yù)測(cè)差分倒譜系數(shù)[1]（LPCMCC）、基音周期P及其差分△P、18維的短時(shí)譜的臨界帶特征矢量[1]（本文用

3、GL表示）和子帶能量倒譜[6]（Sub-bandMFCC，本文用SBC表示）系數(shù)及其差分（△SBC）。其中，本文是采用自相關(guān)方法提取的基音周期，并運(yùn)用了二次平滑算法[1]去除了基音軌跡中的“野點(diǎn)”。在提取子帶能量倒譜時(shí)，本文是將語(yǔ)音信號(hào)按照Mel刻度在樹(shù)結(jié)構(gòu)中的多級(jí)子帶分解為11個(gè)子帶信號(hào)進(jìn)行計(jì)算的。3說(shuō)話人識(shí)別方法3.1動(dòng)態(tài)時(shí)間規(guī)整算法動(dòng)態(tài)時(shí)間規(guī)整匹配是基于動(dòng)態(tài)規(guī)劃的思想，解決了發(fā)音長(zhǎng)短不一的匹配問(wèn)題，把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)正技術(shù)，是語(yǔ)音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法。設(shè)測(cè)試語(yǔ)音參數(shù)

4、共有I幀矢量，則測(cè)試語(yǔ)音模板的特征矢量序列為X=（X1、X2、…、XI），參考語(yǔ)音參數(shù)共有J幀，則參考模板的特征矢量序列為Y＝（Y1、Y2、…、YJ）。且I≠J，則動(dòng)態(tài)時(shí)間規(guī)整就是要找到一個(gè)時(shí)間規(guī)整函數(shù)j=w(i)，將測(cè)試矢量的時(shí)間軸i非線性地映射到參考模板的時(shí)間軸j上，并使該函數(shù)w滿足下式：（3.1）其中，是第i幀測(cè)試矢量Xi和第j幀模板矢量Yj之間的距離測(cè)度，一般這個(gè)距離測(cè)度采用歐氏距離的平方，如（3.2）式所示。D則是處于最優(yōu)時(shí)間規(guī)整情況下兩矢量的距離。（3.2）其中Xi=(xi1，xi2，xi3，…，xi

5、N)，Yj=(yj1，yj2，yj3，…，yjN)，N是特征矢量維數(shù)。實(shí)際應(yīng)用中，DTW一般采用動(dòng)態(tài)規(guī)劃技術(shù)（DP）來(lái)實(shí)現(xiàn)[1]。動(dòng)態(tài)規(guī)劃是一種最優(yōu)化算法，其原理如圖1所示。將測(cè)試模板的各幀i=1,2,......,I作為二維直角坐標(biāo)系的橫軸，參考模板的各幀號(hào)j=1,2,......,J作為縱軸。通常規(guī)整函數(shù)w(i)被限制在一個(gè)平行四邊形內(nèi)，如圖1，它的一條邊的斜率為2，另一條邊的斜率為1/2。規(guī)整函數(shù)的起始點(diǎn)為(1,1)，終止點(diǎn)為(I,J)，即W(1)=1，W(I)=J。的斜率為0、1或2；否則就為1或2。這是

6、一種簡(jiǎn)單的局部路徑限制。求最佳路徑問(wèn)題可以歸結(jié)為滿足局部路徑約束條件，使得沿路徑的累積距離最小。搜索該路徑的方法：從(1,1)點(diǎn)出發(fā)，可以展開(kāi)若干條滿足局部路徑約束條件的路徑。假設(shè)可以計(jì)算每條路徑達(dá)到(I,J)點(diǎn)時(shí)的總的累積距離，具有最小累積距離者即為最佳路徑。這個(gè)最小累積距離即為測(cè)試語(yǔ)音模板與參考模板語(yǔ)音之間的距離。則與測(cè)試模板距離最小的參考模板對(duì)應(yīng)的說(shuō)話人即判為識(shí)別結(jié)果。3.2改進(jìn)的多門(mén)限多判決的動(dòng)態(tài)時(shí)間規(guī)整方法很顯然，在模板庫(kù)中總的詞條數(shù)目不變時(shí)，增加模板的數(shù)量會(huì)提高識(shí)別率，但是模板數(shù)目的增加也會(huì)帶來(lái)系統(tǒng)響

7、應(yīng)速度變慢的問(wèn)題。因此，本文在說(shuō)話人辨認(rèn)系統(tǒng)中采取了多門(mén)限多次判決方法[2]，系統(tǒng)參考模板庫(kù)中共存有四套模板。輸入語(yǔ)音構(gòu)成的測(cè)試模板先跟第一套模板進(jìn)行匹配，求出與每個(gè)模板的最佳匹配距離，距離最小者作為候選輸出。設(shè)定一個(gè)拒絕門(mén)限，若最小匹配距離也大于該門(mén)限，則表明該輸入語(yǔ)音不在語(yǔ)音庫(kù)范圍內(nèi)，停止下一步匹配，結(jié)果判該輸入語(yǔ)音對(duì)應(yīng)的說(shuō)話人為庫(kù)外人員。另外再設(shè)一個(gè)接受門(mén)限，若匹配距離小于該門(mén)限，則候選輸出為正式的輸出；否則，再進(jìn)行第二輪匹配，即與第二套模板進(jìn)行匹配.這樣一直到第四套模板，如果此時(shí)還沒(méi)有得到理想的輸出，則可

8、綜合評(píng)價(jià)四次匹配結(jié)果，得出最后的輸出結(jié)果。此外，為了減少多輪匹配的計(jì)算量，定義一個(gè)差別閾值[2]，在每輪匹配結(jié)束后，計(jì)算最小匹配距離與其他模板匹配距離的差別，若所有的差別均大于差別閾值，則表明輸入模板與候選輸出模板較其他模板有很大的相似性，可以作為正式的輸出。若仍有模板的差別小于差別閾值，則表明這些模板與候選輸出模板之間還可能存在混淆，需待下一輪匹配進(jìn)行澄清。因此在下一輪

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究

基于改進(jìn)的時(shí)間動(dòng)態(tài)規(guī)整算法的多特征組合的說(shuō)話人辨認(rèn)方法研究

相關(guān)文章

相關(guān)標(biāo)簽