資源描述:
《基于話者分類和hmm的話者自適應語音識別》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、262.,.第卷第期中國科學技術大學學報Vol26No2.1996年6月JOURNALOFCHINAUNIVERSITYOFSCIENCEANDTECHNOLOGYJun1996基于話者分類和HMM的話者自適應語音識別‘戴蓓倩郁正慶戴任飛張勁松王長富司虎(電子技術部),摘要本文提出了一種基于話者分類和HM五d的話者自適應語音識別方法采用對、,,參考話者聚類并按話者類分別建立HMM模板的策略對于新注冊的用戶來統(tǒng)只,,需利用其極少量的語音便可將與之最相近的一類模板指派給新用戶再采用基于語空間映射的兩級自適應方法,使系統(tǒng)自適應到用戶的模式下工作.這種方法既提高了識
2、別性能,又降低了自適應的難度,還有利于HMM的建立.討論了話者分類數和,自適應語音數據對話者自適應效果及識別性能的影響提出了一種在自適應語音數,據不足情況下仍具有較好自適應效果的基于FvQ的碼本自適應改進葬法該算法還具有對自適應字表不敏感的特點.關鍵詞話者自適應,話者聚類,語音識別,隱馬爾可夫模型,譜空間映射中圖法分類號TNglZ·34l引言,、、、、近年來語音識別系統(tǒng)的研究逐漸從限定人孤立字小字表向非限定人大字表連續(xù)語音方面發(fā)展,逐漸走向實用化.在很多語音識別系統(tǒng)中都采用了隱馬爾可夫模型(HMM)技,H,,術這是由于MM是一種有效和精確的隨機模型當訓練用的
3、語音樣本數據量足夠大時它.,、能很好地反映語音的變化特性和描述語聲的產生過程然而一個大字表基于HMM的限定,,,人語音識別系統(tǒng)的建立需要大量的訓練語音樣本而且當更換一個新的使用者時還需要大,量(幾十分鐘以上)的語音樣本數據對系統(tǒng)重新進行訓練從而給系統(tǒng)的使用帶來了麻煩和時耗.不認人的語音識別系統(tǒng)可以為新用戶提供一個立即可使用的系統(tǒng),而不需要收集新用戶的語音樣本數據去重新訓練系統(tǒng),這對于許多應用場合無疑是十分需要的.但是.這種系統(tǒng)的建立需要收集各種類型的大量參考話者的更大量的語音樣本數據,才能包含不同話者之間瞬時和動態(tài)譜差所造成的語音變化,使系統(tǒng)的建立非常復雜和
4、費時.盡管如此,不同話者的不,同發(fā)音類型的譜特征空間的交迭和混淆仍不可避免地存在致使不認人語音識別系統(tǒng)的識別2995年9月13日收到.*國家自然科學基金資助課題.148中國科學技術大學學報第26卷率遠低于限定人語音識別系統(tǒng).話者自適應語音識別方法是利用新用戶的少量訓練語音樣本去改進原始的參考識別系統(tǒng),,的性能如果原始參考識別系統(tǒng)中已含有了較好的模型則系統(tǒng)能很快地自適應到新用戶的模式下工作,因而系統(tǒng)具有很好的識別性能.我們可以認為,話者自適應語音識別是介于限定人,語音識別和不認人語音識別之間的一種合乎邏輯的折衷因為它是從不認人的原始參考識別系統(tǒng)出發(fā),然后自適應
5、到某個個別用戶.(限定人)這種方法對于語音識別走向實用化具有重要意義,從而受到了極大的重視.,、實現基于HMM的話者自適應語音識別系統(tǒng)有兩個關鍵其一是建立一個合理有效的原始參考識別系統(tǒng),其二是HMM的自適應技術.一個好的原始參考識別系統(tǒng)的建立不僅可以解,決不同話者的不同發(fā)音類型譜特征空間的交迭和混淆問題而且有利于聲學HM五左的建立和自適應.鑒于采用大量語音數據集中訓練所得到的HMM模型,不能解決話者之間譜特征空間,,,的混迭問題使系統(tǒng)識別性能較差且HMM的自適應難度也較大所以本文采用了對參考話,,,者聚類并按話者類分別建立HMM模板的策略對于一個新注冊用戶系
6、統(tǒng)只要利用其極少,量的訓練語音即可將系統(tǒng)中與其最相近的一類模板指派給新用戶再采用適當的自適應技術便可使系統(tǒng)修正到新用戶的模式下工作.這種根據話者類建模的方法,由于把一個交迭很寬,,的眾多話者的特征空間劃分為若干個交迭較少甚至不交迭的語音特征空間所以大大提高了,,,、系統(tǒng)的識別性能降低了自適應難度還有利于HMM的建立故成為實現大字表非限定人語音識別的一種極有前途的方法.,本文采用基于譜空間映射的兩級自適應方法進行HMM的話者自適應在vQ碼本自適應級,利用新話者的少量自適應訓練語音數據去修正原始碼本,以減少新話者在譜空間中的總的,,,量化誤差;在HMM參數自適應
7、級則利用新舊碼本間的映射關系修正原始HMM參數使之轉變?yōu)樾略捳叩哪0?在這種自適應方法中,如何從少量自適應訓練語音數據中獲得較為準確的話者特征空間之間的映射關系,將直接影響到自適應的效果.我們認為,自適應訓練語音,數據的選擇應能較充分地體現新話者的特征以及新話者與參考話者間的差異性并需考慮到漢語語言知識的特點以及系統(tǒng)字表的使用范圍.針對碼本自適應在自適應語音數據較少時效,,,果較差的缺點本文提出了一種基于FVQ的碼本自適應改進算法實驗證明改進算法具有較好的自適應效果,而且有對自適應字表內容不敏感的特點.2基于話者分類的話者自適應語音識別系統(tǒng),圖1為實現基于話
8、者分類的話者自適應語音識別系統(tǒng)的結構框圖首先是建立一