《語音識別技術(shù)介紹》PPT課件

ID：36903549

大?。?74.50 KB

頁數(shù)：34頁

時間：2019-05-10

資源描述：

《《語音識別技術(shù)介紹》PPT課件》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、語音信號處理與識別一、語音識別概述二、語音識別系統(tǒng)基本原理三、預(yù)處理及特征參數(shù)提取四、模板匹配技術(shù)及相似性判斷方法五、語音識別系統(tǒng)的設(shè)計和實現(xiàn)語音識別概述讓機器聽懂人類的語音，這是人們長期以來夢寐以求的事情。伴隨計算機技術(shù)發(fā)展，語音識別己成為信息產(chǎn)業(yè)領(lǐng)域的標(biāo)志性技術(shù)，在人機交互應(yīng)用中逐漸進入我們?nèi)粘５纳?，并迅速發(fā)展成為“改變未來人類生活方式廳的關(guān)鍵技術(shù)之一。語音識別技術(shù)以語音信號為研究對象，是語音信號處理的一個重要研究方向。其最終目標(biāo)是實現(xiàn)人與機器進行自然語言通信。發(fā)展和現(xiàn)狀：20世紀50年代，AT&TBell(貝爾)研究所成功研制了世界上第一個能識別10個英文數(shù)字的語音識別系統(tǒng)一Aud

2、ry系統(tǒng)，這標(biāo)志著語音識別研究的開始。60年代計算機的應(yīng)用推動了語音識別的發(fā)展。這一時期的重要成果是動態(tài)規(guī)劃(DynamicProgramming,DP)和線性預(yù)測分析(LinearPredictive)技術(shù)。其中后者較好的解決了語音信號產(chǎn)生的模型問題，對語音識別產(chǎn)生了深遠的影響。語音識別概述70年代語音識別領(lǐng)域取得了突破。在理論上，LP技術(shù)得到進一步發(fā)展，動態(tài)時間規(guī)整技術(shù)(DTW)的基本成熟，特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實踐上，小詞匯量孤立詞的識別方面取得了實質(zhì)性的進展，實現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立語音識別系統(tǒng)。這一時期的語音識別方法基

3、本上是采用傳統(tǒng)的模式識別策略。80年代語音識別研究進一步走向深入，其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBel實驗室的Rabiner等科學(xué)家的努力，他們把HMM純數(shù)學(xué)模型工程化，從而為更多研究者了解和認識。研究的重點逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。90年代，隨著多媒體時代的來臨，在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進展。許多發(fā)達國家如美國、日本、韓國以及IBM，Apple，AT&T,NTT等著名公司都為語音識別系統(tǒng)的實用化開發(fā)投以巨資。語音識別技術(shù)實用化進程大大加速，并出現(xiàn)了許多實用化產(chǎn)品。IBM公司率先

4、推出的漢語ViaVoice語音識別系統(tǒng)，帶有一個32,000詞的基本詞匯表，可以擴展到65,000詞，平均識別率可以達到95%，可以識別上海話、廣東話和四川話等地方口音，是目前具有代表性的漢語連續(xù)語音識別系統(tǒng)。語音識別概述21世紀語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面進一步發(fā)展。在語音識別產(chǎn)品方面，各大公司紛紛推出自己產(chǎn)品。目前世界上最先進的語音識別軟件，既不是微軟生產(chǎn)的，也非IBM制造，它的名字叫做NaturallySpeaking，出自于NuanceCommunications公司。NaturallySpeaking己經(jīng)得到了大多數(shù)用戶的認可。用戶對著麥克風(fēng)說話，屏幕上就顯示出說話的內(nèi)容，很容

5、易識別和糾正錯誤.久而久之，該軟件就會適應(yīng)用戶的說話風(fēng)格。我國語音識別研究工作起步于五十年代，但近年來發(fā)展很快，研究水平也從實驗室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計劃后，國家863智能計算機專家組為語音識別技術(shù)研究專門立項，每兩年滾動一次。我國語音識別技術(shù)的研究水平己經(jīng)基本上與國外同步，在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢，并達到國際先進水平。其中，具有代表性的研究單位是清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點實驗室。由清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計課題組研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)，識別精度達到了94.8%(不定長數(shù)字串)和96.8%(

6、定長數(shù)字串).語音識別概述語音識別系統(tǒng)分類：從說話者與識別系統(tǒng)的相關(guān)性分:(1)特定人語音識別系統(tǒng)：僅考慮對于專人的話音進行識別，與說話的語種沒有關(guān)系；(2)非特定人語音識別系統(tǒng)：識別的語音與人無關(guān)，通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學(xué)習(xí)，識別的語言取決于采用的訓(xùn)練語音庫；(3)多人的識別系統(tǒng)：通常能識別一組人的語音該系統(tǒng)通常要求對該組人的語音進行學(xué)習(xí)，通?？梢宰R別三到五個人的語音。從說話的方式分:(1)孤立詞語音識別系統(tǒng):其輸入系統(tǒng)要求輸入每個詞后要停頓;(2)連接詞語音識別系統(tǒng):其輸入系統(tǒng)要求對每個詞都清楚發(fā)音,開始出現(xiàn)一些連音現(xiàn)象;(3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入自然流

7、利的語音，會出現(xiàn)大量的連音和變音。另外從識別系統(tǒng)的詞匯量大小分:小詞匯量語音識別系統(tǒng)（幾十個詞）；中等詞匯量語音識別系統(tǒng)（幾百到上千個詞）；大詞匯量語音識別系統(tǒng)（幾千到幾萬個詞）。語音識別概述語音識別的基本方法:一般來說，語音識別的方法有三種：基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。(1)語音學(xué)和聲學(xué)的方法該方法起步較早，在語音識別技術(shù)提出的開始，就有了這方面的研究，但由于其模型及語音知識

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 34



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

《語音識別技術(shù)介紹》PPT課件

《語音識別技術(shù)介紹》PPT課件

相關(guān)文章

相關(guān)標(biāo)簽