語音識別技術論文-語音識別

語音識別技術論文-語音識別

ID:30922118

大小:49.00 KB

頁數:4頁

時間:2019-01-04

語音識別技術論文-語音識別_第1頁
語音識別技術論文-語音識別_第2頁
語音識別技術論文-語音識別_第3頁
語音識別技術論文-語音識別_第4頁
資源描述:

《語音識別技術論文-語音識別》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。

1、與機器進行語咅交流,讓機器明白你說什么,這是人們氏期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語咅信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。語咅識別是一門交叉學科。近二十年來,語音識別技術収得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電了產品等各個領域。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發(fā)展十件大事Z一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重耍的科技發(fā)展技術之一。語

2、音識別技術所涉及的領域包插:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。[編輯木段]任務分類和應用根據識別的對象不同,語音識別任務大體可分為3類,即孤立詞識別(isolatedwordrecognition),關鍵詞識別(或稱關鍵詞檢出,keywordspotting)和連續(xù)語咅識別。其中,孤立詞識別的任務是識別事先己知的孤立的詞,如“開機”、“關機”等;連續(xù)語音識別的任務則是識別任意的連續(xù)語音,如一個句子或一段話;連續(xù)語音流中的關鍵詞檢測針對的是連續(xù)語音,但它并不識別全部文字,而只是檢測已

3、知的若干關鍵詞在何處出現,如在一段話中檢測“計算機”、“世界”這兩個詞。根據針對的發(fā)音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別,前者只能識別一個或幾個人的語音,而后者則可以被任何人使用。顯然,非特定人語音識別系統(tǒng)更符合實際需要,但它要比針對特定人的識別困難得多。另外,根據語音設備和通道,可以分為桌面(PC)語音識別、電話語音識別和嵌入式設備(手機、PDA等)語音識別。不同的采集通道會使人的發(fā)音的聲學特性發(fā)生變形,因此需要構造各自的識別系統(tǒng)。語音識別的應用領域非常廣泛,常見的應用系統(tǒng)有:語音輸入系統(tǒng),

4、相對于鍵盤輸入方法,它更符合人的II常習慣,也更自然、更高效;語音控制系統(tǒng),即用語音來控制設備的運行,相對于手動控制來說更加快捷、方便,可以用在諸如工業(yè)控制、語音撥號系統(tǒng)、智能家電、聲控智能玩具等許多領域;智能對話查詢系統(tǒng),根據客戶的語音進行操作,為用戶提供自然、友好的數據庫檢索服務,例如家庭服務、賓館服務、旅行社服務系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務、銀行服務、股栗查詢服務等等。[編輯本段]前端處理前端處理是指在特征提取Z前,先對原始語音進行處理,部分消除噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的木質特征。最常

5、用的前端處理有端點檢測和語咅增強。端點檢測是指在語音信號中將語音和非語音信號時段區(qū)分開來,準確地確定出語音信號的起始點。經過端點檢測后,后續(xù)處理就可以只對語音信號進行,這對提高模型的精確度和識別正確率有重要作用。語音增強的主要任務就是消除環(huán)境噪聲對語音的影響。目詢通用的方法是采用維納濾波,該方法在噪聲較大的情況下效果好于其它濾波器。[編輯木段]聲學特征聲學特征的提取與選擇是語音識別的一個重要環(huán)節(jié)。聲學特征的提取既是一個信息大幅度壓縮的過程,也是一個信號解卷過程,H的是使模式劃分器能更好地劃分。由于語音信號的時變特性,

6、特征提取必須在一小段語音信號上進行,也即進行短時分析。這一段被認為是平穩(wěn)的分析區(qū)間稱Z為幀,幀與幀ZI'可的偏移通常取幀長的1/2或1/3。通常要對信號進行預加重以提升高頻,對信號加窗以避免短時語音段邊緣的影響。[編輯木段]常用的一些聲學特征*線性預測系數LPC:線性預測分析從人的發(fā)聲機理入手,通過對聲道的短管級聯(lián)模型的研究,認為系統(tǒng)的傳遞函數符合全極點數字濾波器的形式,從而n時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的采樣值和線性預測采樣值之間達到均方差最小LMS,即可得到線性預測系數LPCo

7、XjLPC的計算方法有自相關法(德賓Durbin法)、協(xié)方差法、格型法等等。計算上的快速有效保證了這一聲學特征的廣泛使用。與LPC這種預測參數模型類似的聲學特征還有線譜對LSP、反射系數等等。*倒譜系數CEP:利用同態(tài)處理方法,對語音信號求離散傅立葉變換DFT后取對數,再求反變換iDFT就可得到倒譜系數。對LPC倒譜(LPCCEP),在獲得濾波器的線性預測系數后,可以用一個遞推公式計算得出。實驗表明,使用倒譜可以提高特征參數的穩(wěn)定性。*Mel倒譜系數MFCC和感知線性預測PLP:不同于LPC等通過對人的發(fā)聲機理的研究

8、而得到的聲學特征,Mel倒譜系數MFCC和感知線性預測PLP是受人的聽覺系統(tǒng)研究成果推動而導出的聲學特征。對人的聽覺機理的研究發(fā)現,當兩個頻率相近的音調同時發(fā)出時,人只能聽到一個音調。臨界帯寬指的就是這樣-種令人的主觀感覺發(fā)生突變的帶寬邊界,當兩個音調的頻率差小于臨界帶寬時,人就會把兩個音調聽成一個,這稱Z為屏蔽效應。Mel刻度是對這一臨界帶寬

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。