及研究語音識別技術(shù)必知的聲學(xué)特征

及研究語音識別技術(shù)必知的聲學(xué)特征

ID:34959580

大?。?7.50 KB

頁數(shù):9頁

時(shí)間:2019-03-15

及研究語音識別技術(shù)必知的聲學(xué)特征_第1頁
及研究語音識別技術(shù)必知的聲學(xué)特征_第2頁
及研究語音識別技術(shù)必知的聲學(xué)特征_第3頁
及研究語音識別技術(shù)必知的聲學(xué)特征_第4頁
及研究語音識別技術(shù)必知的聲學(xué)特征_第5頁
資源描述:

《及研究語音識別技術(shù)必知的聲學(xué)特征》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、...頁眉研究語音識別技術(shù)必知的聲學(xué)特征祁慧慧

2、創(chuàng)建時(shí)間:2011年07月27日16:13

3、瀏覽:160

4、評論:0標(biāo)簽:【導(dǎo)讀】語音聲學(xué)特征的提取與選擇是語音識別的一個(gè)重要環(huán)節(jié)。聲學(xué)特征的提取既是一個(gè)信息大幅度壓縮的過程,也是一個(gè)信號解卷過程,目的是使模式劃分器能更好地劃分。本文詳細(xì)介紹了語音識別技術(shù)研究者必知的聲學(xué)特征。語音識別技術(shù)中,聲學(xué)特征參數(shù)提取的目的是對語音信號進(jìn)行分析處理,去掉與語音識別無關(guān)的冗余信息,獲得影響語音識別的重要信息,同時(shí)對語音信號進(jìn)行壓縮。在實(shí)際應(yīng)用中,語音信號的壓縮率介于10-100之間。語音信號包含了大量各種不同的信息,提取哪些信息

5、,用哪種方式提取,需要綜合考慮各方面的因素,如成本、性能、響應(yīng)時(shí)間、計(jì)算量等。因此,掌握語音識別常用聲學(xué)特征是每一個(gè)語音識別技術(shù)研究者必備的專業(yè)技能之一。線性預(yù)測系數(shù)LPC線性預(yù)測分析從人的發(fā)聲機(jī)理入手,通過對聲道的短管級聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,從而n時(shí)刻的信號可以用前若干時(shí)刻的信號的線性組合來估計(jì)。通過使實(shí)際語音的采樣值和線性預(yù)測采樣值之間達(dá)到均方差最小LMS,即可得到線性預(yù)測系數(shù)LPC。對LPC的計(jì)算方法有自相關(guān)法(德賓Durbin法)、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測參

6、數(shù)模型類似的聲學(xué)特征還有線譜對LSP、反射系數(shù)等等。倒譜系數(shù)CEP利用同態(tài)處理方法,對語音信號求離散傅立葉變換DFT后取對數(shù),再求反變換iDFT就可得到倒譜系數(shù)。對LPC倒譜(LPCCEP),在獲得濾波器的線性預(yù)測系數(shù)后,可以用一個(gè)遞推公式計(jì)算得出。實(shí)驗(yàn)表明,使用倒譜可以提高特征參數(shù)的穩(wěn)定性。Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP不同于LPC等通過對人的發(fā)聲機(jī)理的研究而得到的聲學(xué)特征,Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP是受人的聽覺系統(tǒng)研究成果推動而導(dǎo)出的聲學(xué)特征。對人的聽覺機(jī)理的研究發(fā)現(xiàn),當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),人只能聽到一個(gè)音調(diào)。臨界帶寬指

7、的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界,當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí),人就會把兩個(gè)音調(diào)聽成一個(gè),這稱之為屏蔽效應(yīng)。Mel刻度是對這一臨界帶寬的度量方法之一。MFCC的計(jì)算首先用FFT將時(shí)域信號轉(zhuǎn)化成頻域,之后對其對數(shù)能量譜用依照Mel刻度分布的三角濾波器組進(jìn)行卷積,最后對各個(gè)濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT,取前N個(gè)系數(shù)。PLP仍用德賓法去計(jì)算LPC參數(shù),但在計(jì)算自相關(guān)參數(shù)時(shí)用的也是對聽覺激勵的對數(shù)能量譜進(jìn)行DCT的方法。非特定人語音特征VS特定人語音特征非特定人語音識別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù),盡量去除說話人的個(gè)人信息;而特定

8、人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時(shí),盡量也包含說話人的個(gè)人信息。文章為作者獨(dú)立觀點(diǎn),不代表阿里巴巴以商會友立場。轉(zhuǎn)載此文章須經(jīng)作者同意,并附上出處及文章鏈接。....頁腳...頁眉語音識別系統(tǒng)技術(shù)原理剖析祁慧慧

9、創(chuàng)建時(shí)間:2011年07月19日13:35

10、瀏覽:235

11、評論:0標(biāo)簽:【導(dǎo)讀】根據(jù)語音識別實(shí)際應(yīng)用中的不同,語音識別系統(tǒng)可以分為:特定人與非特定人的識別、獨(dú)立詞與連續(xù)詞的識別、小詞匯量與大詞匯量以及無限詞匯量的識別。但無論哪種語音識別系統(tǒng),其基本原理和處理方法大體相同。語音識別原理語音信號輸入之后,預(yù)處理和數(shù)字化是進(jìn)行語音識別的前提條件

12、。其中,預(yù)處理主要是進(jìn)行預(yù)濾波,保留正常人的300~3400Hz的語音信號;數(shù)字化是要進(jìn)行A/D轉(zhuǎn)換及抗混疊等處理;特征提取是進(jìn)行語音信號訓(xùn)練和識別必不可少的步驟。能夠體現(xiàn)語音信號特征的參數(shù)包括:(1)基于LPC的倒譜參數(shù);(2)Mel系數(shù)的倒譜參數(shù);(3)采用前沿?cái)?shù)字信號處理技術(shù)的特征分析手段,如小波分析、時(shí)/頻域分析、人工神經(jīng)網(wǎng)絡(luò)等。本文采用基于LPC的倒譜參數(shù)表示方法,提取出的特征值存入?yún)⒖寄J綆熘校脕砥ヅ浯R別語音信號的特征值。匹配計(jì)算是進(jìn)行語音識別的核心部分,由待識別人的語音經(jīng)過特征提取后,與系統(tǒng)訓(xùn)練時(shí)產(chǎn)生的模板進(jìn)行匹配,在說話人辨認(rèn)中,取與待識別語

13、音相似度最大的模型所對應(yīng)的語音作為識別結(jié)果,這就是語音識別的整個(gè)過程。語音識別技術(shù)從應(yīng)用類分為特定人語音識別和非特定人語音識別。特定人語音識別技術(shù)是針對指定人的語音識別,其他人的話玩具不識別,應(yīng)用模式是使用前需要指定人的語音訓(xùn)練過程,一般按照玩具提示訓(xùn)練2遍語音詞條,然后就可以使用了;非特定人語音識別是不用針對指定的人的識別技術(shù),不分年齡,性別,只要說相同語言就可以,應(yīng)用模式是在產(chǎn)品定型前按照確定的十幾個(gè)語音交互詞條,采集200人左右的聲音樣本,經(jīng)過我們的PC算法處理得到交互詞條的語音模型和特征數(shù)據(jù)庫,然后燒錄到我們的芯片上,應(yīng)用我們芯片的玩具就具有交互的功能了

14、。非特定人語音識別應(yīng)用有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。