資源描述:
《基于語音識別的語種識別研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于語音識別的語種識別研究陳瀛長沙市南雅中學摘要:圍繞語種識別進行研討,并采用LangidT具進行實驗。由于在多語音語言識別系統(tǒng)中扮演著重要角色,所以在信息檢索、國家安全和軍事領域具有重要的作用。關(guān)鍵詞:語音識別;Langid;語種識別;0前言語咅識別是使計算機經(jīng)過訓練算法把語咅信號轉(zhuǎn)變?yōu)橛嬎銠C可以理解的文本,簡單來說就是使計算機理解人的語音。例如,字符序列、按鍵或二進制編碼等。語音識別有兩個研究方向,即語種識別和說話人識別。圍繞語種識別進行研討,并采用Langid工具進行實驗,語種識別是指計算機通過理解和識別過程判定輸入
2、語音的語種。語種識別,在多語音語言識別系統(tǒng)中扮演著重要的角色,它在信息檢索、國家安全和軍事領域扮演著越來越重要的角色。1語音識別概述(1)語音識別介紹。語音識別也稱為自動語音識別,目的是使計算機能自動將人類的輸入語音轉(zhuǎn)化成為相應的文木文字。語音識別技術(shù)所涉及的相關(guān)領域有模式識別、信號處理、信息論和概率論、聽覺機理和發(fā)聲機理、人工智能等。運用領域,如語咅文檔檢索、簡單的聽寫數(shù)據(jù)錄入、語音撥號、室內(nèi)設備控制、語咅導航等。(2)語音識別發(fā)展。1952年由AT&T貝爾實驗室研究人員開發(fā)的Audrey語音識別系統(tǒng)是最早的基于電了計算
3、機的語音識別系統(tǒng),它是通過提取語音中元音的共振峰來完成的。1959年,倫敦學院的Denes研究岀來了語法概論,并將其加入到語音識別領域的研究屮,這是語音識別第一次運用統(tǒng)計學的原理。同年美國的林肯實驗室成功生產(chǎn)出了10個元音單元的語音識別器。20世紀60年代的3大突破是:線性預測編碼;前蘇聯(lián)科學家Vintsyuk提出的動態(tài)時間規(guī)整技術(shù);隱馬爾科夫模型的應用。2研究背景及意義(1)研究背景。由于全球化趨勢的快速發(fā)展,國際交流不斷加深,多語言交流的需求也在加大,迫切需要有一種機器能夠代替人類進行多語言的學習,從而提高生產(chǎn)效率,促
4、進社會進步。在此大背景下嘗試通過實驗等方式,探求出一個語種識別的方法。(2)語種識別的意義。語種識別在信息檢索和軍事領域都扮演很重要的角色,包括多語言信息補償/自動轉(zhuǎn)換服務等。從微觀上說,多語種識別可應用在跨國酒店和機場咨詢等場所。例如,客戶打電話時,系統(tǒng)識別說話人的語種信息,分配給掌握相應語音的客服人員分機上,進而提供相應服務;從宏觀上說,在國家信息化服務方面,多語言服務的一些客戶需求逐步出現(xiàn)在一些多信息查詢系統(tǒng)上,可實現(xiàn)多語種的輸入。隨著信息時代的到來,語種識別越來越顯示出重要的應用意義。3語種識別發(fā)展及研究方法3.1
5、語種識別基本流程2種語種識別的方法,即根據(jù)語音進行語種識別和根據(jù)文本進行語種識別。實驗部分采用的是第二種語種識別方法(圖1)o圖1根據(jù)語音進行語種識別流程下載原圖根據(jù)語音進行語種識別有3個過程,即語音信號特征提取,語種模型構(gòu)建和判決規(guī)則。自動語種識別包含訓練階段和識別階段。在訓練階段,系統(tǒng)會提取不同種語咅數(shù)據(jù)的特征,然后轉(zhuǎn)變成一個特征向量序列,利用一些相應的訓練算法,最后產(chǎn)生一個或多個參考模型并存儲起來。在識別階段,輸入一些待識別的語音數(shù)據(jù),然后提取特征,根據(jù)訓練階段訓練好的對應語音或語言模型進行相似度度量,得到一個相似性
6、得分。判決模塊根據(jù)該和似度得分給出識別判決結(jié)果,也就是識別出的語種信息。3.2語種識別的傳統(tǒng)方法(1)傳統(tǒng)的基于HMM(IliddenMarkovModels,隱馬爾可夫模型)的語種識別。主要包括:為了使效率更高,課差更少,把音頻的首尾兩端無用的靜音段進行切除(VAD);分幀處理,把聲音分開成不同的段,每段稱為一幀;波形變換,傳統(tǒng)的方法是提取音頻信號的MFCC(MelFrequencyCepstralCoefficients,梅爾頻率倒譜系數(shù))特征,一幀迫性就可以使用12維的向量進行描述;比對數(shù)據(jù)庫,得岀語種信息。(2)基
7、于音素識別器的語種識別方法。主要包括:通過音素識別器將語音信號轉(zhuǎn)換為音素序列;根據(jù)音素序列提取N-gram單元統(tǒng)計量作為特征;根據(jù)這些統(tǒng)計特性建立每個語種的N-Gram語言模型;比對后,得出語種。4語種識別實驗4.1Langid(語言標識)工具包及內(nèi)容仃)LangidI具簡介。Langid作為一個應用非常廣泛的語音識別工具,可用于因特網(wǎng)信息,網(wǎng)絡搜索詞,文木檢索,語法分析等多個領域。langid.py可以看作是一個全監(jiān)督分類器,主要基于多項式的樸素貝葉斯分類器,包含97種語言,并對每種語言場景進行模型訓練。(2)Langi
8、dI具優(yōu)點。主要包括:能夠直接使用,而且不同于傳統(tǒng)文本識別工具;多種文本場景都可以適用于該模型;代碼部署簡單;執(zhí)行速度快;可作為網(wǎng)絡服務;與WSGI兼容,可以部署在WSGI服務器上,從而實現(xiàn)并行操作。4.2langid語種識別原理(1)確定目標函數(shù)。使用Langid進行語種分類,目的是對于一篇包含n個特