資源描述:
《語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。聲學(xué)特征聲學(xué)特征的提取與選擇是語(yǔ)音識(shí)別的一個(gè)重要環(huán)節(jié)。聲學(xué)特征的提取既是一個(gè)信息大幅度壓縮的過(guò)程,也是一個(gè)信號(hào)解卷過(guò)程,目的是使模式劃分器能更好地劃分。由于語(yǔ)音信號(hào)的時(shí)變特性,特征提取必須在一小段語(yǔ)音信號(hào)上進(jìn)行,也即進(jìn)行短時(shí)分析。這一段被認(rèn)為是平穩(wěn)的分析區(qū)間稱之為幀,幀與幀之間的偏移通常取幀長(zhǎng)的1/2或1/3。通常要對(duì)信號(hào)進(jìn)行預(yù)加重以提升高頻,對(duì)信號(hào)加窗以避免短時(shí)語(yǔ)音段邊緣的影響。下面介紹常用的一些聲學(xué)特征。線性預(yù)測(cè)系數(shù)LPC:線性預(yù)測(cè)分析從人的發(fā)聲機(jī)理入手,通過(guò)對(duì)聲道的短管級(jí)聯(lián)模型的
2、研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,從而n時(shí)刻的信號(hào)可以用前若干時(shí)刻的信號(hào)的線性組合來(lái)估計(jì)。通過(guò)使實(shí)際語(yǔ)音的采樣值和線性預(yù)測(cè)采樣值之間達(dá)到均方差最小LMS,即可得到線性預(yù)測(cè)系數(shù)LPC。對(duì)LPC的計(jì)算方法有自相關(guān)法(德賓Durbin法)、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測(cè)參數(shù)模型類似的聲學(xué)特征還有線譜對(duì)LSP、反射系數(shù)等等。倒譜系數(shù)CEP:利用同態(tài)處理方法,對(duì)語(yǔ)音信號(hào)求離散傅立葉變換DFT后取對(duì)數(shù),再求反變換iDFT就可得到倒譜系數(shù)。對(duì)LPC倒譜(LPCCEP),在獲得濾波器的線性預(yù)測(cè)系數(shù)后,可以用一個(gè)遞推公式計(jì)算得出。
3、實(shí)驗(yàn)表明,使用倒譜可以提高特征參數(shù)的穩(wěn)定性。Mel倒譜系數(shù)MFCC和感知線性預(yù)測(cè)PLP:不同于LPC等通過(guò)對(duì)人的發(fā)聲機(jī)理的研究而得到的聲學(xué)特征,Mel倒譜系數(shù)MFCC和感知線性預(yù)測(cè)PLP是受人的聽覺系統(tǒng)研究成果推動(dòng)而導(dǎo)出的聲學(xué)特征。對(duì)人的聽覺機(jī)理的研究發(fā)現(xiàn),當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),人只能聽到一個(gè)音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界,當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí),人就會(huì)把兩個(gè)音調(diào)聽成一個(gè),這稱之為屏蔽效應(yīng)。Mel刻度是對(duì)這一臨界帶寬的度量方法之一。MFCC的計(jì)算首先用FFT將時(shí)域信號(hào)轉(zhuǎn)化成頻域,之后對(duì)其對(duì)數(shù)能量譜用依照Mel刻度分布的三角濾波器組進(jìn)
4、行卷積,最后對(duì)各個(gè)濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT,取前N個(gè)系數(shù)。PLP仍用德賓法去計(jì)算LPC參數(shù),但在計(jì)算自相關(guān)參數(shù)時(shí)用的也是對(duì)聽覺激勵(lì)的對(duì)數(shù)能量譜進(jìn)行DCT的方法。聲學(xué)模型語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成,分別對(duì)應(yīng)于語(yǔ)音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。本節(jié)和下一節(jié)分別介紹聲學(xué)模型和語(yǔ)言模型方面的技術(shù)。HMM聲學(xué)建模:馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征。用HMM刻畫語(yǔ)音信號(hào)需作出兩個(gè)假
5、設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、Viterbi算法和前向后向算法。語(yǔ)音識(shí)別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來(lái)對(duì)識(shí)別基元建模,一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM,一個(gè)詞就是構(gòu)成詞的多個(gè)音素的HMM串行起來(lái)構(gòu)成的HMM,而連續(xù)語(yǔ)音識(shí)別的整個(gè)模型就是詞和靜音組合起來(lái)的HMM。上下文相關(guān)建模:協(xié)同發(fā)音,指的是一個(gè)音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性只能漸變,從而使得后一個(gè)音的頻
6、譜與其他條件下的頻譜產(chǎn)生差異。上下文相關(guān)建模方法在建模時(shí)考慮了這一影響,從而使模型能更準(zhǔn)確地描述語(yǔ)音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和后一音的影響的稱為Tri-Phone。英語(yǔ)的上下文相關(guān)建模通常以音素為基元,由于有些音素對(duì)其后音素的影響是相似的,因而可以通過(guò)音素解碼狀態(tài)的聚類進(jìn)行模型參數(shù)的共享。聚類的結(jié)果稱為senone。決策樹用來(lái)實(shí)現(xiàn)高效的triphone對(duì)senone的對(duì)應(yīng),通過(guò)回答一系列前后音所屬類別(元/輔音、清/濁音等等)的問(wèn)題,最終確定其HMM狀態(tài)應(yīng)使用哪個(gè)senone。分類回歸樹CART模型用以進(jìn)行詞到音素的發(fā)音標(biāo)注。語(yǔ)言模型語(yǔ)言模型主要分為規(guī)則
7、模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。N-Gram:該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。語(yǔ)言模型的性能通常用交叉熵和復(fù)雜度(Perplexity)來(lái)衡量。交叉熵的意義是用該模型對(duì)文本