資源描述:
《語音識別簡介》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在應用文檔-天天文庫。
1、語音識別索引1.語音識別的發(fā)展簡史12.語音識別的發(fā)展趨勢23.語音識別的系統(tǒng)類型44.語音識別的基元選擇45.特征參數(shù)提取56.語音識別系統(tǒng)性能評分標準57.語音識別應用分類68.語音識別應用的特點69.面向具體任務的語音識別81.語音識別的發(fā)展簡史語音識別研究從二十世紀50年代開始到現(xiàn)在已經(jīng)歷半個多世紀的蓬勃發(fā)展,在這期間獲得了巨大的進展。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線索進行簡要回顧。50年代,研究人員大都致力于探索聲學—語音學的基本概念。1952年AT&TBell實驗室實現(xiàn)了一個
2、單一發(fā)音人孤立發(fā)音的十個英文數(shù)字的語音識別系統(tǒng),方法主要是度量每個數(shù)字的元音音段的共振峰。1956年,RCALab開展的一項獨立研究也是試圖識別單一發(fā)音人的10不同的音節(jié),同樣采用了度量共振峰的方法。1959年,英國UniversityCollege的研究人員嘗試用譜分析和模板匹配方法構建了一種音素識別器,用以識別4個元音和9個輔音。而MIT林肯實驗室的研究人員則是構建一種非特定人的元音識別器,用于識別嵌在/b/-vowel+/t/語境中的10個元音。60年代,相繼出現(xiàn)并發(fā)表了語音識別的幾個重要
3、的思想。但是,伴隨著這個年代的開始卻是幾個日本的實驗室進入語音識別領域,并構建一些專用的硬件用于語音識別系統(tǒng)。東京RadioResearchLab首先構建了一個用硬件實現(xiàn)的元音識別器。語音信號經(jīng)過精心制作的帶通濾波器進行譜分析和通道輸出譜加權處理后,用多數(shù)邏輯決策電路選擇輸入語音中元音的識別結果。1962年,東京大學進行了另一個音素識別器的硬件實現(xiàn)的嘗試。它使用過零率方法分離語音信號的不同部分,并進行識別。1963年,日本NECLab對數(shù)字進行語音識別的嘗試可以算得上最值得注意的工作,因為它不僅
4、是NEC研究語音識別的開端,還導致一個長期的和卓有成效的研究計劃。在60年代中,三個研究項目的開展對其后20多年的語音識別研究和開發(fā)產(chǎn)生了重大影響。第一個研究項目在RCALab開始于60年代后期,目的是研究語音事件在時間刻度上不均勻性的現(xiàn)實解決辦法。在能夠可靠檢測出語音事件的始末點的基礎上,發(fā)展了一套時間歸正的基本方法,顯著降低了識別匹配評分的變化程度。幾乎與此同時,前蘇維埃的研究人員Vintsyuk提出使用動態(tài)規(guī)劃來對齊兩個不同長度的語音音段。盡管動態(tài)時間彎折(DTW)概念的實質(zhì)和用于連接詞識
5、別的算法雛形已經(jīng)包含在Vintsyuk的工作中,但直到80年代才在西方廣為人知,并發(fā)揚光大。60年代的最后一項成就是研究人員Reddy用動態(tài)跟蹤音素的方法進行連續(xù)語音識別的開創(chuàng)性工作。Reddy的這項工作最終在CMU(他在60年后期加入CMU)培育出長期進行的并獲極大成功的語音識別研究計劃,在連續(xù)語音識別系統(tǒng)的研究方面至今仍然保持世界領先的水平。70年代,語音識別研究取得了一系列具有里程碑意義的成就。首先,在模式識別思想、動態(tài)規(guī)劃方法、線性預測思想等基礎研究的成功應用的支撐下,孤立詞發(fā)音和孤立語
6、句發(fā)音的識別成為了可行的有用技術。70年代的另一個里程碑是在IBM開始了一個長期持續(xù)的、卓有成效的大詞匯量連續(xù)語音識別研究的集體努力。他們在20多年中研究了三項不同的工作,其中之一就是簡單備忘錄的聽寫系統(tǒng)Tangorn。在這期間,AT&TBellLab開展了一系列目的在于建立真正的非特定人語音識別系統(tǒng)的實驗。研究提出了范圍廣泛的一類復雜的聚類算法,用于確定能夠表示大量人群的不同詞語的所有聲學變化的不同模式的數(shù)量。這些研究經(jīng)過10多年的精煉后,成為構建非特定人的模式聚類技術,現(xiàn)在已經(jīng)得到充分理解并
7、廣泛應用。繼孤立詞語識別成為70年代研究的主要焦點之后,連接詞語識別的問題則是80年代研究的焦點。其目標是創(chuàng)建基于用由單個詞的模式串接在一起進行匹配,并能識別由詞匯串接組成的流暢話語的可靠系統(tǒng)。形式化并實現(xiàn)了大量連接詞語音識別的算法,例如兩層動態(tài)規(guī)劃方法,一遍法,層建法,幀同步層建法。這些“優(yōu)化”匹配處理的每一種方法都有它自己的實現(xiàn)優(yōu)點,并對相當多的任務進行過探索研究。語音識別研究在80年代的最大特點是從基于模板的方法向統(tǒng)計模型方法的轉變,特別是轉向研究隱馬爾柯夫模型HMM的理論、方法和實現(xiàn)問題
8、。雖然個別實驗室(主要是IBM,InstituteforDefenseAnalysis,DragonSystems)對HMM的方法論早已非常熟知和充分理解,但直到80年代中期在HMM的理論和方法廣泛發(fā)表以后,才使原本艱澀的HMM純數(shù)學模型工程化,從而為更多研究者了解和認識,并被世界上幾乎每一個從事語音識別的實驗室所采用。貫穿整個80年代,大詞匯量連續(xù)語音識別系統(tǒng)研究受到了DARPA的有力推動。DARPA發(fā)起有關語音識別的巨大研究計劃的目的是,對于1000條詞匯的數(shù)據(jù)庫管理任務的連續(xù)語音達到高的詞