資源描述:
《語(yǔ)音識(shí)別系統(tǒng)ppt課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、語(yǔ)音識(shí)別技術(shù)1.聲學(xué)特征2.聲學(xué)模型3.語(yǔ)言模型4.語(yǔ)音搜索技術(shù)5.系統(tǒng)實(shí)現(xiàn)6.語(yǔ)音識(shí)別系統(tǒng)的自棒性與魯棒性7.綜合總結(jié)聲學(xué)特征匯報(bào)者:線性預(yù)測(cè)倒譜系數(shù)(LPCC)美爾倒譜系數(shù)(MFCC)語(yǔ)音動(dòng)態(tài)特征與混合特征仿真與實(shí)現(xiàn)線性預(yù)測(cè)倒譜系數(shù)(LPCC)式中,ai為線性預(yù)測(cè)系數(shù),ci為所求的LPCC參數(shù),P是參數(shù)的個(gè)數(shù)。優(yōu)點(diǎn):1.去掉激勵(lì)信息,主要反映聲道特性。2.計(jì)算量小-且只需十幾個(gè)倒譜系數(shù)。缺點(diǎn):1.對(duì)輔音的描述能力較差。2.抗噪聲性能也較弱。美爾倒譜系數(shù)(MFCC)語(yǔ)音信號(hào)分幀加窗FFTMel濾波器組Log
2、
3、DCTMel
4、倒譜動(dòng)態(tài)特征與混合特征參數(shù)幀->靜態(tài)特征LPCCMFCCPLP語(yǔ)音幀短時(shí)譜共振峰頻率及帶寬鼻音聯(lián)合特征譜相關(guān)特征KL特征音調(diào)特征每幀所包含的特征:動(dòng)態(tài)特征根據(jù)靜態(tài)特征的差分譜來(lái)獲取單獨(dú)一種參數(shù)往往難以完全反映出每個(gè)說(shuō)話者的個(gè)性特征參與組合的特征應(yīng)該具有區(qū)分性、穩(wěn)定性和獨(dú)立性混合特征仿真與實(shí)現(xiàn)從訓(xùn)練語(yǔ)音中提取特征矢量,得到特征矢量集,通過(guò)LBG算法生成碼本1.從輸入語(yǔ)音中提取特征參數(shù)2.由每個(gè)模板依次對(duì)特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量化誤差。聲學(xué)模型匯報(bào)者:兩聲學(xué)建模和語(yǔ)言建?,F(xiàn)代化的重要組成部分statistica
5、lly-based語(yǔ)音識(shí)別算法。隱馬爾可夫模型被廣泛地使用在許多系統(tǒng)。還有許多其他語(yǔ)言建模等領(lǐng)域的應(yīng)用智能鍵盤和文件自動(dòng)分類技術(shù).。HMM聲學(xué)建模:馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見(jiàn),外界只能看到各個(gè)時(shí)刻的輸出值。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征。用HMM刻畫(huà)語(yǔ)音信號(hào)需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)
6、的算法是前向算法、Viterbi算法和前向后向算法。語(yǔ)音識(shí)別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來(lái)對(duì)識(shí)別基元建模,一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM,一個(gè)詞就是構(gòu)成詞的多個(gè)音素的HMM串行起來(lái)構(gòu)成的HMM,而連續(xù)語(yǔ)音識(shí)別的整個(gè)模型就是詞和靜音組合起來(lái)的HMM。漢英雙語(yǔ)混合建模方法直接合并漢英雙語(yǔ)的基本建模單元進(jìn)行漢英雙語(yǔ)混合聲學(xué)建模,一個(gè)很自然的方法就是直接合并二者的PhoneSet,然后按照單一語(yǔ)言的聲學(xué)建模方法訓(xùn)練雙語(yǔ)的聲學(xué)模型。在我們的漢英雙語(yǔ)識(shí)別系統(tǒng)里,使用的是從左至右的三狀態(tài)隱馬爾科夫模型(H
7、iddenMarkovModel,簡(jiǎn)稱HMM),與兩個(gè)單語(yǔ)系統(tǒng)是一致的。漢英雙語(yǔ)直接合并的PhoneSetIPA映射—基于知識(shí)的漢英雙語(yǔ)Phone共享IPA映射法就是根據(jù)國(guó)際音標(biāo)協(xié)會(huì)的發(fā)音規(guī)則,把特定語(yǔ)言的Phone用國(guó)際音標(biāo)來(lái)表示。這也是構(gòu)建多語(yǔ)言的PhoneSet最簡(jiǎn)便的方法。其映射過(guò)程可簡(jiǎn)要表示為:合并聚類—數(shù)據(jù)驅(qū)動(dòng)的漢英雙語(yǔ)Phone共享自下而上的合并聚類算法在語(yǔ)音識(shí)別領(lǐng)域應(yīng)用很多,是典型的數(shù)據(jù)驅(qū)動(dòng)的聚類方法。其優(yōu)點(diǎn)是不需要先驗(yàn)知識(shí)的引導(dǎo)。因此,我們考慮利用合并聚類的方法進(jìn)行漢英雙語(yǔ)的Phone共享,使得共享后雙語(yǔ)的
8、Phone和IPA映射方法得到的Phone數(shù)目相等,以便于進(jìn)行比較研究。語(yǔ)言模型匯報(bào)者:語(yǔ)言模型IBM公司ViaVoice語(yǔ)音識(shí)別軟件應(yīng)用了規(guī)則與統(tǒng)計(jì)相結(jié)合的語(yǔ)言模型。其中,統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。N-Gram該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。語(yǔ)音搜索技術(shù)匯報(bào)者:語(yǔ)音識(shí)別系統(tǒng)模型訓(xùn)練部分識(shí)別部分特征提取模型結(jié)
9、構(gòu)的定義在既定的模型結(jié)構(gòu)下,如何選擇一種比較好的方法來(lái)預(yù)測(cè)模型的參數(shù)采用正確的搜索算法,找到識(shí)別基元的邊界根據(jù)聲學(xué)模型提供的信息輸出合適的聲學(xué)候選利用語(yǔ)言模型提供的信息得到最終希望的詞序列搜索算法的主要目的減少尋找最佳假設(shè)的時(shí)間和內(nèi)存的需要,而同時(shí)維持最小的搜索錯(cuò)誤。搜索的目的獲得最佳的詞序列,即最大化后驗(yàn)概率,即Pr(x1···xT
10、w1···wN)2.Bayes判別準(zhǔn)則這就是所謂的Bayes判別準(zhǔn)則,它的計(jì)算需要用到兩種類型的概率分布:語(yǔ)言模型,即Pr(w1···wN)聲學(xué)模型,即Pr(x1···xT
11、w1···wN)理
12、論基礎(chǔ):1.搜索算法的主要目的時(shí)間同步的搜索算法1.一遍DP搜索常用詞典:線性詞典和樹(shù)型詞典具體步驟:搜索算法1:動(dòng)態(tài)規(guī)劃遞歸剪枝操作聲學(xué)剪枝語(yǔ)言模型剪枝直方圖剪枝基本剪枝策略時(shí)間同步的搜索算法(續(xù))2.詞圖算法使用范圍:詞圖搜索算法主要是在詞的混淆度比較高時(shí)用來(lái)處理多個(gè)詞的候選。優(yōu)點(diǎn):聲