資源描述:
《《語(yǔ)音識(shí)別技術(shù)》PPT課件》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、語(yǔ)音識(shí)別技術(shù)的前世今生語(yǔ)音識(shí)別之語(yǔ)音信號(hào)特征提取技術(shù)科大訊飛Siri語(yǔ)音識(shí)別與語(yǔ)音信號(hào)語(yǔ)音識(shí)別:能把語(yǔ)言和語(yǔ)聲轉(zhuǎn)換成可進(jìn)行處理的信息的過(guò)程.語(yǔ)音信號(hào):冗余度很高的隨機(jī)信號(hào),必須經(jīng)過(guò)特征提取才能有效地降低信號(hào)的冗余度,而語(yǔ)音特征的提取又是通過(guò)對(duì)語(yǔ)音信號(hào)的分析來(lái)獲得表征語(yǔ)音信號(hào)的參數(shù)的.語(yǔ)音識(shí)別五大問(wèn)題⒈對(duì)自然語(yǔ)言的識(shí)別和理解。首先必須將連續(xù)的講話(huà)分解為詞、音素等單位,其次要建立一個(gè)理解語(yǔ)義的規(guī)則。⒉語(yǔ)音信息量大。語(yǔ)音模式不僅對(duì)不同的說(shuō)話(huà)人不同,對(duì)同一說(shuō)話(huà)人也是不同的,例如,一個(gè)說(shuō)話(huà)人在隨意說(shuō)話(huà)和認(rèn)真說(shuō)話(huà)時(shí)的語(yǔ)音信息是不同的。一個(gè)人的說(shuō)話(huà)方式隨著時(shí)間變
2、化。⒊語(yǔ)音的模糊性。說(shuō)話(huà)者在講話(huà)時(shí),不同的詞可能聽(tīng)起來(lái)是相似的。這在英語(yǔ)和漢語(yǔ)中常見(jiàn)。⒋單個(gè)字母或詞、字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。⒌環(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有嚴(yán)重影響,致使識(shí)別率低。LPC基本思想:一個(gè)語(yǔ)音的采樣能夠用過(guò)去若干個(gè)語(yǔ)音采樣的線(xiàn)性組合來(lái)逼近。通過(guò)使線(xiàn)性預(yù)測(cè)的采樣在最小均方誤差意義上逼近實(shí)際語(yǔ)音采樣,可以求取一組唯一的預(yù)測(cè)系數(shù)。這里的預(yù)測(cè)系數(shù)就是線(xiàn)性組合中所用的加權(quán)系數(shù)。這種線(xiàn)性預(yù)測(cè)分析技術(shù)最早用于語(yǔ)音編碼中,因此也常被簡(jiǎn)稱(chēng)為L(zhǎng)PC。目前進(jìn)行語(yǔ)音特征分析的最有效、最重要的方法之一是線(xiàn)性預(yù)測(cè)分析(LP
3、C)法,這是由于:1.它有效地解決了短時(shí)平穩(wěn)信號(hào)的模型化問(wèn)題,可把語(yǔ)音信號(hào)看成是由全極點(diǎn)模型產(chǎn)生的;2.能很好地逼近共振峰,提供譜估計(jì);3.提供的語(yǔ)音信號(hào)模型參數(shù)(如基音、共振峰、譜、聲道面積函數(shù)等)簡(jiǎn)潔而準(zhǔn)確,計(jì)算量較小,便于實(shí)時(shí)處理;4.可用于低數(shù)率傳輸?shù)沫h(huán)境;5.將LPC參數(shù)形成的模型參數(shù)儲(chǔ)存起來(lái),在語(yǔ)音識(shí)別中提高識(shí)別率和減少識(shí)別時(shí)間。呵呵~小明,今晚上有思修課呢!你去不去??“我去!!我不去!!”呵呵~冬天:能穿多少穿多少;夏天:能穿多少穿多少。剩女產(chǎn)生的原因有兩個(gè):一是誰(shuí)都看不上,二是誰(shuí)都看不上。呵呵~ToTwoTooLPC的基本概念是:
4、語(yǔ)音的每個(gè)樣值均可由過(guò)去若干個(gè)樣值的線(xiàn)性組合來(lái)逼近,同時(shí)可采用使實(shí)際語(yǔ)音抽樣與線(xiàn)性預(yù)測(cè)抽樣之間的均方差最小的方式,來(lái)解出一組預(yù)測(cè)的系數(shù)。LPC系數(shù)算出后,就可以直接進(jìn)行倒譜系數(shù)C(k)的計(jì)算,語(yǔ)音信號(hào)特征的提取如圖所示,主要包括A/D轉(zhuǎn)換、端點(diǎn)檢測(cè)、預(yù)加重、加窗、自相關(guān)序列、LPC系數(shù)、倒譜系數(shù)計(jì)算等等.AD轉(zhuǎn)換就是模數(shù)轉(zhuǎn)換,就是把模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。端點(diǎn)檢測(cè)就是從包含語(yǔ)音的一段信號(hào)中準(zhǔn)確地確定語(yǔ)音的起始點(diǎn)和終止點(diǎn),區(qū)分語(yǔ)音和非語(yǔ)音號(hào),它是語(yǔ)音處理技術(shù)中的一個(gè)重要方面。預(yù)加重是一階網(wǎng)絡(luò),用來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行高頻提升,可由軟件來(lái)實(shí)現(xiàn)。預(yù)加重的作用加
5、窗是為了進(jìn)行短時(shí)分析必須加窗,這在理論上應(yīng)使用兩端具有平滑過(guò)渡特性的窗口,如漢明窗口,以減小在信號(hào)兩端處的預(yù)測(cè)誤差,并避免頻譜出現(xiàn)“破碎”現(xiàn)象。預(yù)加重的作用A.將高頻提升,語(yǔ)音中只剩下聲道部分的影響,所提取的特征更加符合原聲道的模型B.由于語(yǔ)音信號(hào)基本上可以看成是一個(gè)隨著頻率的增高而頻譜包絡(luò)逐漸衰減的信號(hào),因此預(yù)加重正好使這個(gè)頻譜包絡(luò)變得平坦,并相應(yīng)地加快了LPC系數(shù)的收斂速度。返回結(jié)論根據(jù)以上提取和分析的過(guò)程,可以得出以下結(jié)論:(1)在語(yǔ)音特征的提取中,預(yù)加重和漢明窗兩部分是必不可少的,其參數(shù)的選取關(guān)系決定了提取語(yǔ)音特征的正確與否;(2)LPC是
6、語(yǔ)音分析的重要手段,因LPC系數(shù)能很好地進(jìn)行譜估計(jì),即可作為語(yǔ)音特征的參數(shù),因此僅用12個(gè)LPC系數(shù)就能很好地表示復(fù)雜語(yǔ)音信號(hào)的特征,這就大大降低了信號(hào)的冗余度,并有效地減少了計(jì)算量和存儲(chǔ)量,使之成為語(yǔ)音識(shí)別和語(yǔ)音壓縮的基礎(chǔ);(3)倒譜也是語(yǔ)音的特征參數(shù),是研究系統(tǒng)特性的有效數(shù)據(jù),在實(shí)際運(yùn)作中大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都會(huì)采用倒譜參數(shù)來(lái)作為有關(guān)距離的度量。