語音識(shí)別系統(tǒng)簡(jiǎn)述.ppt

語音識(shí)別系統(tǒng)簡(jiǎn)述.ppt

ID:52396970

大?。?38.51 KB

頁(yè)數(shù):13頁(yè)

時(shí)間:2020-04-05

語音識(shí)別系統(tǒng)簡(jiǎn)述.ppt_第1頁(yè)
語音識(shí)別系統(tǒng)簡(jiǎn)述.ppt_第2頁(yè)
語音識(shí)別系統(tǒng)簡(jiǎn)述.ppt_第3頁(yè)
語音識(shí)別系統(tǒng)簡(jiǎn)述.ppt_第4頁(yè)
語音識(shí)別系統(tǒng)簡(jiǎn)述.ppt_第5頁(yè)
資源描述:

《語音識(shí)別系統(tǒng)簡(jiǎn)述.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、語音識(shí)別電科0904呂亞偉語音識(shí)別系統(tǒng)簡(jiǎn)述語音識(shí)別系統(tǒng)的本質(zhì)就是一種模式識(shí)別系統(tǒng),它包括特征提取、模式匹配、參考模式庫(kù)等基本單元。由于語音信號(hào)是一種典型的非平穩(wěn)信號(hào),加之呼吸氣流、外部噪音、電流干擾等使得語音信號(hào)不能直接用于提取特征,而要進(jìn)行前期的預(yù)處理。預(yù)處理過程包括預(yù)濾波、采樣和量化、分幀、加窗、預(yù)加重、端點(diǎn)檢測(cè)等。經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進(jìn)行特征參數(shù)提取。在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,保存為模板庫(kù)。在識(shí)別階段,語音信號(hào)經(jīng)過相同的通道得到語音參數(shù),生成測(cè)試模板,與參考模板進(jìn)行

2、匹配,將匹配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。語音識(shí)別原理框圖語音信號(hào)采集語音信號(hào)預(yù)處理端點(diǎn)檢測(cè)識(shí)別參數(shù)提取識(shí)別參數(shù)匹配識(shí)別模板信號(hào)待識(shí)別信號(hào)識(shí)別結(jié)果語音信號(hào)預(yù)處理端點(diǎn)檢測(cè)識(shí)別參數(shù)提取語音信號(hào)預(yù)處理分幀:在實(shí)際處理時(shí)可以將語音信號(hào)分成很小的時(shí)間段(約10~30ms[5,7]),稱之為“幀”,作為語音信號(hào)處理的最小單位,幀與幀的非重疊部分稱為幀移,而將語音信號(hào)分成若干幀的過程稱為分幀。預(yù)加重:對(duì)于語音信號(hào)的頻譜,通常是頻率越高幅值越小,在語音信號(hào)的頻率增加兩倍時(shí),其功率譜的幅度下降6dB。因此必須對(duì)高頻進(jìn)行加重處理,一般

3、是將語音信號(hào)通過一個(gè)一階高通濾波器1-0.9375z-1,即為預(yù)加重濾波器,其目的是濾除低頻干擾。加窗:為了保持語音信號(hào)的短時(shí)平穩(wěn)性,利用窗函數(shù)來減少由截?cái)嗵幚韺?dǎo)致的Gibbs效應(yīng)。用的最多的三種為矩形窗、漢明窗(Hamming)和漢寧窗(Hanning)。幾種典型的窗函數(shù)矩形窗:漢明窗(Hamming):哈寧窗(Hanning):1=(0≤n<N-1)WR={0=(Other)0.5-0.46cos(2πn/(N-1))(0≤n<N-1)WHM={0=(Other)0.5-0.5cos(2πn/(N-1))(0≤n

4、<N-1)0=(Other){WHN=語音信號(hào)端點(diǎn)檢測(cè)在基于DTW算法的語音識(shí)別系統(tǒng)中,無論是訓(xùn)練和建立模板階段還是在識(shí)別階段,都先采用端點(diǎn)檢測(cè)算法確定語音的起點(diǎn)和終點(diǎn)。語音端點(diǎn)檢測(cè)是指用計(jì)算機(jī)數(shù)字處理技術(shù)從包含語音的一段信號(hào)中找出字、詞的起始點(diǎn)及結(jié)束點(diǎn),從而只存儲(chǔ)和處理有效語音信號(hào)。1、短時(shí)能量2、短時(shí)過零率3、雙門限端點(diǎn)檢測(cè)短時(shí)能量:語音和噪聲的主要區(qū)別在它們的能量上。語音段的能量比噪聲段的大,語音段的能量是噪聲段能量疊加語音聲波能量的和。短時(shí)過零率:短時(shí)過零表示一幀語音信號(hào)波形穿過橫軸(零電平)的次數(shù)。對(duì)于連續(xù)

5、語音信號(hào),過零意味著時(shí)域波形通過時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值的改變符號(hào)則稱為過零。雙門限端點(diǎn)檢測(cè):雙門限端點(diǎn)檢測(cè)顧名思義需要兩級(jí)檢測(cè),即短時(shí)能量檢測(cè)和短時(shí)過零率檢測(cè)。語音train_0.wav的時(shí)域分析參數(shù)語音train_0.wav的端點(diǎn)檢測(cè)結(jié)果語音識(shí)別參數(shù)的提取經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進(jìn)行特征參數(shù)提取,特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率,提取出來的參數(shù)直接用來進(jìn)行語音識(shí)別。對(duì)特征參數(shù)的要求:(1)提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性;(2)各階參數(shù)之間有良好的獨(dú)立性;(3)特征參

6、數(shù)要計(jì)算方便,最好有高效的計(jì)算方法,以保證語音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。LPC與LPCC系數(shù)MFCC系數(shù)LPC與LPCC系數(shù):LPC(線性預(yù)測(cè)系數(shù))模擬人發(fā)音器官的聲管模型,是一種基于語音合成的參數(shù)模型。在語音識(shí)別系統(tǒng)中很少直接使用LPC系統(tǒng),而是由LPC系數(shù)推出的另一種參數(shù)LPCC。LPCC(線性預(yù)測(cè)倒譜系數(shù))是LPC在倒譜域中的表示。LPCC的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,缺點(diǎn)是對(duì)輔音描述能力較差。MFCC系數(shù):人的聽覺系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)的關(guān)

7、系。近年來,一種能夠比較充分利用人耳的這種特殊感知特性的系數(shù)得到了廣泛應(yīng)用,這就是Mel尺度倒譜系數(shù)(即MFCC)。大量研究表明,MFCC系數(shù)能夠比LPCC參數(shù)更好地提高系統(tǒng)的識(shí)別性能。DTW算法實(shí)現(xiàn)DTW(DynamicTimeWarping,動(dòng)態(tài)時(shí)間規(guī)整)是語音識(shí)別中較為經(jīng)典的一種算法。在實(shí)現(xiàn)小詞匯表孤立詞識(shí)別系統(tǒng)時(shí),其識(shí)別率及其它指標(biāo)與HMM算法實(shí)現(xiàn)幾乎等同。又由于HMM算法復(fù)雜,在訓(xùn)練階段需要提供大量的語音數(shù)據(jù)通過反復(fù)計(jì)算才能得到模型參數(shù),而DTW算法本身既簡(jiǎn)單又有效,因此在特定的場(chǎng)合下獲得了廣泛的應(yīng)用。DT

8、W算法原理DTW是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù),它尋找一個(gè)規(guī)整函數(shù)im=Ф(in),將測(cè)試矢量的時(shí)間軸n非線性地映射到參考模板的時(shí)間軸m上,并使該函數(shù)滿足:D是處于最優(yōu)時(shí)間規(guī)整情況下兩矢量的距離。由于DTW不斷地計(jì)算兩矢量的距離以尋找最優(yōu)的匹配路徑,所以得到的是兩矢量匹配時(shí)累積距離最小所對(duì)應(yīng)的規(guī)整函數(shù),這就保證了它們之間

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。