資源描述:
《《語音識別技術(shù)介紹》PPT課件》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、語音信號處理與識別一、語音識別概述二、語音識別系統(tǒng)基本原理三、預(yù)處理及特征參數(shù)提取四、模板匹配技術(shù)及相似性判斷方法五、語音識別系統(tǒng)的設(shè)計和實現(xiàn)語音識別概述讓機器聽懂人類的語音,這是人們長期以來夢寐以求的事情。伴隨計算機技術(shù)發(fā)展,語音識別己成為信息產(chǎn)業(yè)領(lǐng)域的標(biāo)志性技術(shù),在人機交互應(yīng)用中逐漸進入我們?nèi)粘5纳?,并迅速發(fā)展成為“改變未來人類生活方式廳的關(guān)鍵技術(shù)之一。語音識別技術(shù)以語音信號為研究對象,是語音信號處理的一個重要研究方向。其最終目標(biāo)是實現(xiàn)人與機器進行自然語言通信。發(fā)展和現(xiàn)狀:20世紀50年代,AT&TBell(貝爾)研究所成功研制了世界上第一個能識別10個英文數(shù)字的語音識別系統(tǒng)一Aud
2、ry系統(tǒng),這標(biāo)志著語音識別研究的開始。60年代計算機的應(yīng)用推動了語音識別的發(fā)展。這一時期的重要成果是動態(tài)規(guī)劃(DynamicProgramming,DP)和線性預(yù)測分析(LinearPredictive)技術(shù)。其中后者較好的解決了語音信號產(chǎn)生的模型問題,對語音識別產(chǎn)生了深遠的影響。語音識別概述70年代語音識別領(lǐng)域取得了突破。在理論上,LP技術(shù)得到進一步發(fā)展,動態(tài)時間規(guī)整技術(shù)(DTW)的基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實踐上,小詞匯量孤立詞的識別方面取得了實質(zhì)性的進展,實現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立語音識別系統(tǒng)。這一時期的語音識別方法基
3、本上是采用傳統(tǒng)的模式識別策略。80年代語音識別研究進一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBel實驗室的Rabiner等科學(xué)家的努力,他們把HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認識。研究的重點逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。90年代,隨著多媒體時代的來臨,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進展。許多發(fā)達國家如美國、日本、韓國以及IBM,Apple,AT&T,NTT等著名公司都為語音識別系統(tǒng)的實用化開發(fā)投以巨資。語音識別技術(shù)實用化進程大大加速,并出現(xiàn)了許多實用化產(chǎn)品。IBM公司率先
4、推出的漢語ViaVoice語音識別系統(tǒng),帶有一個32,000詞的基本詞匯表,可以擴展到65,000詞,平均識別率可以達到95%,可以識別上海話、廣東話和四川話等地方口音,是目前具有代表性的漢語連續(xù)語音識別系統(tǒng)。語音識別概述21世紀語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面進一步發(fā)展。在語音識別產(chǎn)品方面,各大公司紛紛推出自己產(chǎn)品。目前世界上最先進的語音識別軟件,既不是微軟生產(chǎn)的,也非IBM制造,它的名字叫做NaturallySpeaking,出自于NuanceCommunications公司。NaturallySpeaking己經(jīng)得到了大多數(shù)用戶的認可。用戶對著麥克風(fēng)說話,屏幕上就顯示出說話的內(nèi)容,很容
5、易識別和糾正錯誤.久而久之,該軟件就會適應(yīng)用戶的說話風(fēng)格。我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快,研究水平也從實驗室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計劃后,國家863智能計算機專家組為語音識別技術(shù)研究專門立項,每兩年滾動一次。我國語音識別技術(shù)的研究水平己經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢,并達到國際先進水平。其中,具有代表性的研究單位是清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點實驗室。由清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計課題組研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng),識別精度達到了94.8%(不定長數(shù)字串)和96.8%(
6、定長數(shù)字串).語音識別概述語音識別系統(tǒng)分類:從說話者與識別系統(tǒng)的相關(guān)性分:(1)特定人語音識別系統(tǒng):僅考慮對于專人的話音進行識別,與說話的語種沒有關(guān)系;(2)非特定人語音識別系統(tǒng):識別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學(xué)習(xí),識別的語言取決于采用的訓(xùn)練語音庫;(3)多人的識別系統(tǒng):通常能識別一組人的語音該系統(tǒng)通常要求對該組人的語音進行學(xué)習(xí),通??梢宰R別三到五個人的語音。從說話的方式分:(1)孤立詞語音識別系統(tǒng):其輸入系統(tǒng)要求輸入每個詞后要停頓;(2)連接詞語音識別系統(tǒng):其輸入系統(tǒng)要求對每個詞都清楚發(fā)音,開始出現(xiàn)一些連音現(xiàn)象;(3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入自然流
7、利的語音,會出現(xiàn)大量的連音和變音。另外從識別系統(tǒng)的詞匯量大小分:小詞匯量語音識別系統(tǒng)(幾十個詞);中等詞匯量語音識別系統(tǒng)(幾百到上千個詞);大詞匯量語音識別系統(tǒng)(幾千到幾萬個詞)。語音識別概述語音識別的基本方法:一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。(1)語音學(xué)和聲學(xué)的方法該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識