語音識別系統(tǒng)ppt課件.ppt

語音識別系統(tǒng)ppt課件.ppt

ID:59765912

大?。?.82 MB

頁數(shù):61頁

時間:2020-11-23

語音識別系統(tǒng)ppt課件.ppt_第1頁
語音識別系統(tǒng)ppt課件.ppt_第2頁
語音識別系統(tǒng)ppt課件.ppt_第3頁
語音識別系統(tǒng)ppt課件.ppt_第4頁
語音識別系統(tǒng)ppt課件.ppt_第5頁
資源描述:

《語音識別系統(tǒng)ppt課件.ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、語音識別技術1.聲學特征2.聲學模型3.語言模型4.語音搜索技術5.系統(tǒng)實現(xiàn)6.語音識別系統(tǒng)的自棒性與魯棒性7.綜合總結聲學特征匯報者:線性預測倒譜系數(shù)(LPCC)美爾倒譜系數(shù)(MFCC)語音動態(tài)特征與混合特征仿真與實現(xiàn)線性預測倒譜系數(shù)(LPCC)式中,ai為線性預測系數(shù),ci為所求的LPCC參數(shù),P是參數(shù)的個數(shù)。優(yōu)點:1.去掉激勵信息,主要反映聲道特性。2.計算量小-且只需十幾個倒譜系數(shù)。缺點:1.對輔音的描述能力較差。2.抗噪聲性能也較弱。美爾倒譜系數(shù)(MFCC)語音信號分幀加窗FFTMel濾波器組Log

2、

3、DCTMel

4、倒譜動態(tài)特征與混合特征參數(shù)幀->靜態(tài)特征LPCCMFCCPLP語音幀短時譜共振峰頻率及帶寬鼻音聯(lián)合特征譜相關特征KL特征音調特征每幀所包含的特征:動態(tài)特征根據(jù)靜態(tài)特征的差分譜來獲取單獨一種參數(shù)往往難以完全反映出每個說話者的個性特征參與組合的特征應該具有區(qū)分性、穩(wěn)定性和獨立性混合特征仿真與實現(xiàn)從訓練語音中提取特征矢量,得到特征矢量集,通過LBG算法生成碼本1.從輸入語音中提取特征參數(shù)2.由每個模板依次對特征矢量序列進行矢量量化,計算各自的平均量化誤差。聲學模型匯報者:兩聲學建模和語言建模現(xiàn)代化的重要組成部分statistica

5、lly-based語音識別算法。隱馬爾可夫模型被廣泛地使用在許多系統(tǒng)。還有許多其他語言建模等領域的應用智能鍵盤和文件自動分類技術.。HMM聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統(tǒng),輸出值通常就是從各個幀計算而得的聲學特征。用HMM刻畫語音信號需作出兩個假設,一是內部狀態(tài)的轉移只與上一狀態(tài)有關,另一是輸出值只與當前狀態(tài)(或當前的狀態(tài)轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應

6、的算法是前向算法、Viterbi算法和前向后向算法。語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓撲結構來對識別基元建模,一個音素就是一個三至五狀態(tài)的HMM,一個詞就是構成詞的多個音素的HMM串行起來構成的HMM,而連續(xù)語音識別的整個模型就是詞和靜音組合起來的HMM。漢英雙語混合建模方法直接合并漢英雙語的基本建模單元進行漢英雙語混合聲學建模,一個很自然的方法就是直接合并二者的PhoneSet,然后按照單一語言的聲學建模方法訓練雙語的聲學模型。在我們的漢英雙語識別系統(tǒng)里,使用的是從左至右的三狀態(tài)隱馬爾科夫模型(H

7、iddenMarkovModel,簡稱HMM),與兩個單語系統(tǒng)是一致的。漢英雙語直接合并的PhoneSetIPA映射—基于知識的漢英雙語Phone共享IPA映射法就是根據(jù)國際音標協(xié)會的發(fā)音規(guī)則,把特定語言的Phone用國際音標來表示。這也是構建多語言的PhoneSet最簡便的方法。其映射過程可簡要表示為:合并聚類—數(shù)據(jù)驅動的漢英雙語Phone共享自下而上的合并聚類算法在語音識別領域應用很多,是典型的數(shù)據(jù)驅動的聚類方法。其優(yōu)點是不需要先驗知識的引導。因此,我們考慮利用合并聚類的方法進行漢英雙語的Phone共享,使得共享后雙語的

8、Phone和IPA映射方法得到的Phone數(shù)目相等,以便于進行比較研究。語言模型匯報者:語言模型IBM公司ViaVoice語音識別軟件應用了規(guī)則與統(tǒng)計相結合的語言模型。其中,統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram該模型基于這樣一種假設,第n個詞的出現(xiàn)只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。語音搜索技術匯報者:語音識別系統(tǒng)模型訓練部分識別部分特征提取模型結

9、構的定義在既定的模型結構下,如何選擇一種比較好的方法來預測模型的參數(shù)采用正確的搜索算法,找到識別基元的邊界根據(jù)聲學模型提供的信息輸出合適的聲學候選利用語言模型提供的信息得到最終希望的詞序列搜索算法的主要目的減少尋找最佳假設的時間和內存的需要,而同時維持最小的搜索錯誤。搜索的目的獲得最佳的詞序列,即最大化后驗概率,即Pr(x1···xT

10、w1···wN)2.Bayes判別準則這就是所謂的Bayes判別準則,它的計算需要用到兩種類型的概率分布:語言模型,即Pr(w1···wN)聲學模型,即Pr(x1···xT

11、w1···wN)理

12、論基礎:1.搜索算法的主要目的時間同步的搜索算法1.一遍DP搜索常用詞典:線性詞典和樹型詞典具體步驟:搜索算法1:動態(tài)規(guī)劃遞歸剪枝操作聲學剪枝語言模型剪枝直方圖剪枝基本剪枝策略時間同步的搜索算法(續(xù))2.詞圖算法使用范圍:詞圖搜索算法主要是在詞的混淆度比較高時用來處理多個詞的候選。優(yōu)點:聲

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。