高性能漢語數碼語音識別算法.pdf

高性能漢語數碼語音識別算法.pdf

ID:57301294

大?。?11.43 KB

頁數:6頁

時間:2020-08-10

高性能漢語數碼語音識別算法.pdf_第1頁
高性能漢語數碼語音識別算法.pdf_第2頁
高性能漢語數碼語音識別算法.pdf_第3頁
高性能漢語數碼語音識別算法.pdf_第4頁
高性能漢語數碼語音識別算法.pdf_第5頁
資源描述:

《高性能漢語數碼語音識別算法.pdf》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、高性能漢語數碼語音識別算法李虎生劉加劉潤生摘要:提出了一個高性能的漢語數碼語音識別(MDSR)系統(tǒng)。MDSR系統(tǒng)使用Mel頻標倒譜系數(MFCC)作為主要的語音特征參數,同時提取共振峰軌跡和鼻音特征以區(qū)分一些易混語音對,并提出一個基于語音特征的實時端點檢測算法,以減少系統(tǒng)資源需求,提高抗干擾能力。采用了兩級識別框架來提高語音的區(qū)分能力,其中第一級識別用于確定識別候選結果,第二級識別用于區(qū)分易混語音對。由于采用了以上改進,MDSR系統(tǒng)識別率達到了98.8%.關鍵詞:漢語;數碼語音識別分類號:TN9

2、12.34文獻標識碼:A文章編號:1000-0054(2000)01-0032-03HighperformancedigitmandarinspeechrecognitionLIHushengLIUJiaLIURunsheng(DepartmentofElectronicEngineering,TsinghuaUniversity,Beijing100084,China)Abstract:High-performancemandarindigitspeechrecognition(MDSR)sy

3、stemisdevelopedusingMFCC(melfrequencycepstrumcoefficient)asthemainparameteridentifyingthespeechpatterns.Theformanttrajectoryandthenasalfeatureareextractedtoidentifyconfusedwords.Afeature-based,real-timeendpointdetectionalgorithmisproposedtoreducethes

4、ystemresourcerequirementsandtoimprovethedisturbance-proofability.Atwo-stagerecognitionframeenhancesdiscriminationbyidentifyingcandidatewordsinthefirststageandconfusedwordpairsinthesecondstage.Theseimprovementsresultinacorrectrecognitionrateof98.8%.Ke

5、ywords:mandarin;digitspeechrecognition▲漢語數碼語音識別(mandarindigitspeechrecognition,MDSR)是語音識別領域中一個具有廣泛應用背景的分支,它的任務是識別“0”到“9”等10個非特定人漢語數碼語音,在電[1]話語音撥號、工業(yè)監(jiān)控、家電遙控等領域有著極大的應用價值。但與英語數碼語音識別相比,MDSR的性能尚未達到成熟應用水平,這是因為1)漢語數碼語音的混淆程度較高;2)漢語是一個多方言語種,說話人會帶有或多或少的地方口音;3)

6、在許多應用背景中,MDSR需要在運算和存儲資源都較為緊張的數字信號處理器(digitalsignalprocessor,DSP)系統(tǒng)上實現(xiàn),這為MDSR算法的設計帶來了很大的限制。由于以上原因,MDSR是一項相當困難的任務。針對漢語數碼語音識別提出了一系列高性能的算法,使MDSR識別率達到了98.8%。由這些算法構成的識別系統(tǒng)框圖如圖1所示。[1]MDSR系統(tǒng)提取的語音特征參數包括用于識別的參數和用于端點檢測的參數。圖1MDSR系統(tǒng)框圖1語音前端處理語音前端處理包括語音特征提取和端點檢測兩部分。

7、1.1語音特征提取1.1.1基本識別參數目前常用的語音識別參數有基于線性預測編碼(LPC)的線性預測倒譜系數(LPCC)和基于Mel[2]頻標的倒譜系數(MFCC)。實驗證明,采用MFCC參數時系統(tǒng)識別率高于采用LPCC參數。因此本文的基本識別參數采用MFCC參數及一階差分MFCC參數。1.1.2共振峰軌跡[3]在MDSR中,易混淆語音“2”和“8”可以由其第2,3共振峰的變化趨勢區(qū)分開。因此[3]可將共振峰軌跡作為識別參數之一,并選用峰值選取算法來提取共振峰軌跡。1.1.3鼻音特征參數漢語數碼

8、語音中,“0”的元音具有鼻音的特征,而“0”容易與具有非鼻化元音的“6”混[4]淆,因此鼻音特征可用于提高“0”的識別率。鼻音的特征包括:1)鼻音在頻譜低端(約0.25kHz左右)有1個較強的共振峰。2)鼻音在中頻段(約0.8~2.3kHz)的能量分布較為均勻,沒有明顯的峰或谷。采用以下2個參數表征鼻音的特征:1)低頻能量比:(1)其中fn為鼻音低頻共振峰頻率,B為鼻音低頻共振峰帶寬。Fk為對語音作快速Fourior變換(FFT)后第k個頻率點的能量,[f1,f2]則為語音“6”能量集中的頻帶。

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。