《語音識別技術(shù)》PPT課件.ppt

《語音識別技術(shù)》PPT課件.ppt

ID:52374519

大小:1.23 MB

頁數(shù):16頁

時(shí)間:2020-04-05

《語音識別技術(shù)》PPT課件.ppt_第1頁
《語音識別技術(shù)》PPT課件.ppt_第2頁
《語音識別技術(shù)》PPT課件.ppt_第3頁
《語音識別技術(shù)》PPT課件.ppt_第4頁
《語音識別技術(shù)》PPT課件.ppt_第5頁
資源描述:

《《語音識別技術(shù)》PPT課件.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、語音識別技術(shù)的前世今生語音識別之語音信號特征提取技術(shù)科大訊飛Siri語音識別與語音信號語音識別:能把語言和語聲轉(zhuǎn)換成可進(jìn)行處理的信息的過程.語音信號:冗余度很高的隨機(jī)信號,必須經(jīng)過特征提取才能有效地降低信號的冗余度,而語音特征的提取又是通過對語音信號的分析來獲得表征語音信號的參數(shù)的.語音識別五大問題⒈對自然語言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語義的規(guī)則。⒉語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個(gè)說話人在隨意說話和認(rèn)真說話時(shí)的語音信息是不同的。一個(gè)人的說話方式隨著時(shí)間

2、變化。⒊語音的模糊性。說話者在講話時(shí),不同的詞可能聽起來是相似的。這在英語和漢語中常見。⒋單個(gè)字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。⒌環(huán)境噪聲和干擾對語音識別有嚴(yán)重影響,致使識別率低。LPC基本思想:一個(gè)語音的采樣能夠用過去若干個(gè)語音采樣的線性組合來逼近。通過使線性預(yù)測的采樣在最小均方誤差意義上逼近實(shí)際語音采樣,可以求取一組唯一的預(yù)測系數(shù)。這里的預(yù)測系數(shù)就是線性組合中所用的加權(quán)系數(shù)。這種線性預(yù)測分析技術(shù)最早用于語音編碼中,因此也常被簡稱為LPC。目前進(jìn)行語音特征分析的最有效、最重要的方法之一是線性預(yù)測分析(

3、LPC)法,這是由于:1.它有效地解決了短時(shí)平穩(wěn)信號的模型化問題,可把語音信號看成是由全極點(diǎn)模型產(chǎn)生的;2.能很好地逼近共振峰,提供譜估計(jì);3.提供的語音信號模型參數(shù)(如基音、共振峰、譜、聲道面積函數(shù)等)簡潔而準(zhǔn)確,計(jì)算量較小,便于實(shí)時(shí)處理;4.可用于低數(shù)率傳輸?shù)沫h(huán)境;5.將LPC參數(shù)形成的模型參數(shù)儲存起來,在語音識別中提高識別率和減少識別時(shí)間。呵呵~小明,今晚上有思修課呢!你去不去??“我去!!我不去??!”呵呵~冬天:能穿多少穿多少;夏天:能穿多少穿多少。剩女產(chǎn)生的原因有兩個(gè):一是誰都看不上,二是誰都看不上。呵呵~ToTwoTooLPC的基本概

4、念是:語音的每個(gè)樣值均可由過去若干個(gè)樣值的線性組合來逼近,同時(shí)可采用使實(shí)際語音抽樣與線性預(yù)測抽樣之間的均方差最小的方式,來解出一組預(yù)測的系數(shù)。LPC系數(shù)算出后,就可以直接進(jìn)行倒譜系數(shù)C(k)的計(jì)算,語音信號特征的提取如圖所示,主要包括A/D轉(zhuǎn)換、端點(diǎn)檢測、預(yù)加重、加窗、自相關(guān)序列、LPC系數(shù)、倒譜系數(shù)計(jì)算等等.AD轉(zhuǎn)換就是模數(shù)轉(zhuǎn)換,就是把模擬信號轉(zhuǎn)換成數(shù)字信號。端點(diǎn)檢測就是從包含語音的一段信號中準(zhǔn)確地確定語音的起始點(diǎn)和終止點(diǎn),區(qū)分語音和非語音號,它是語音處理技術(shù)中的一個(gè)重要方面。預(yù)加重是一階網(wǎng)絡(luò),用來對語音信號進(jìn)行高頻提升,可由軟件來實(shí)現(xiàn)。預(yù)加重

5、的作用加窗是為了進(jìn)行短時(shí)分析必須加窗,這在理論上應(yīng)使用兩端具有平滑過渡特性的窗口,如漢明窗口,以減小在信號兩端處的預(yù)測誤差,并避免頻譜出現(xiàn)“破碎”現(xiàn)象。預(yù)加重的作用A.將高頻提升,語音中只剩下聲道部分的影響,所提取的特征更加符合原聲道的模型B.由于語音信號基本上可以看成是一個(gè)隨著頻率的增高而頻譜包絡(luò)逐漸衰減的信號,因此預(yù)加重正好使這個(gè)頻譜包絡(luò)變得平坦,并相應(yīng)地加快了LPC系數(shù)的收斂速度。返回結(jié)論根據(jù)以上提取和分析的過程,可以得出以下結(jié)論:(1)在語音特征的提取中,預(yù)加重和漢明窗兩部分是必不可少的,其參數(shù)的選取關(guān)系決定了提取語音特征的正確與否;(2

6、)LPC是語音分析的重要手段,因LPC系數(shù)能很好地進(jìn)行譜估計(jì),即可作為語音特征的參數(shù),因此僅用12個(gè)LPC系數(shù)就能很好地表示復(fù)雜語音信號的特征,這就大大降低了信號的冗余度,并有效地減少了計(jì)算量和存儲量,使之成為語音識別和語音壓縮的基礎(chǔ);(3)倒譜也是語音的特征參數(shù),是研究系統(tǒng)特性的有效數(shù)據(jù),在實(shí)際運(yùn)作中大多數(shù)語音識別系統(tǒng)都會采用倒譜參數(shù)來作為有關(guān)距離的度量。

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。