基于gmm的算法在語音檢出系統(tǒng)中的應(yīng)用研究

基于gmm的算法在語音檢出系統(tǒng)中的應(yīng)用研究

ID:23669339

大?。?7.50 KB

頁數(shù):8頁

時間:2018-11-09

基于gmm的算法在語音檢出系統(tǒng)中的應(yīng)用研究_第1頁
基于gmm的算法在語音檢出系統(tǒng)中的應(yīng)用研究_第2頁
基于gmm的算法在語音檢出系統(tǒng)中的應(yīng)用研究_第3頁
基于gmm的算法在語音檢出系統(tǒng)中的應(yīng)用研究_第4頁
基于gmm的算法在語音檢出系統(tǒng)中的應(yīng)用研究_第5頁
資源描述:

《基于gmm的算法在語音檢出系統(tǒng)中的應(yīng)用研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于GMM的算法在語音檢出系統(tǒng)中的應(yīng)用研究喬立升,趙永忠,吳韜,沈軍(中國人民解放軍78020部隊,云南昆明650221)摘要:高斯混合模型(GMM)由于通過改變高斯的混合度,能夠逼近任意概率分布,所以在語音識別領(lǐng)域應(yīng)用廣泛。對高斯混合模型的訓(xùn)練,常見的訓(xùn)練方法是最大似然估計(MLE),這種訓(xùn)練方法能最大程度擬合所有樣本的分布,但沒有考慮模型之間的相互影響,導(dǎo)致識別過程會出現(xiàn)混淆情況;區(qū)分性模型訓(xùn)練算法,適合應(yīng)用于大數(shù)據(jù)量復(fù)雜組合類別的區(qū)分問題。這里提出采用的區(qū)分性模型訓(xùn)練方法,其原則是最小化分類錯誤風(fēng)險,通過更精確細(xì)致

2、地刻畫不同模型之間的分類面,提升識別的效果。實驗結(jié)果表明,該訓(xùn)練方法比最大似然估計的訓(xùn)練方法在多類別語音檢出任務(wù)中具有更好的識別效果。.jyqkumLikelihoodEstimation,MLE),該方法基于MLE規(guī)則,最大程度擬合所有樣本的分布,模型參數(shù)不斷更新,直到觀察序列的概率提高到某些極限點。實際上,由于其沒有考慮聲學(xué)模型之間的相互影響,在訓(xùn)練語料量比較大時,識別過程中會出現(xiàn)混淆情況。區(qū)分性的模型訓(xùn)練算法,適合應(yīng)用于大數(shù)據(jù)量復(fù)雜類別組合的區(qū)分問題[6]。本文提出采用的區(qū)分性模型訓(xùn)練方法,其原則是最小化分類錯誤風(fēng)

3、險,將有限的模型描述能力更多用于容易錯的邊界樣本的區(qū)分,參數(shù)估計時不僅使得屬于該類別的訓(xùn)練數(shù)據(jù)概率最大,同時還要使得不屬于該類別的訓(xùn)練數(shù)據(jù)概率最小,通過更精確細(xì)致地刻畫不同模型之間的分類面,達(dá)到提升識別效果的目的。實驗結(jié)果表明,基于該算法的訓(xùn)練方法比最大似然估計的訓(xùn)練方法在多類別語音檢出任務(wù)中具有更好的識別效果。1高斯混合模型描述GMM用于語音檢出[7],它直接對語音中各類數(shù)據(jù)特征的統(tǒng)計分布進(jìn)行擬合。GMM可以看作是單狀態(tài)的HMM,GMM模型并不關(guān)注語音的時序過程,它只描述語音特征參數(shù)的靜態(tài)分布,不同類別語音特征的靜態(tài)分

4、布不同,因此通過比較不同類數(shù)據(jù)的GMM模型,就可以區(qū)分不同的語音類別。在實際應(yīng)用中,GMM高斯混合度要求比較高,一般要32個高斯函數(shù)或以上,甚至達(dá)到2048個高斯函數(shù)。一個高斯混合模型的概率密度函數(shù)由多個高斯概率密度函數(shù)加權(quán)求和得到,如式(1)所示:式中:μi為均值矢量;Σi為協(xié)方差矩陣。至此,整個高斯混合模型λ可由{ωi,μi,Σi}來描述。其中GMM的協(xié)方差矩陣Σi可以有多種形式,可以是每個高斯概率密度函數(shù)都有一個經(jīng)過訓(xùn)練得到的協(xié)方差矩陣,也可以是某一類別語音的GMM模型的所有高斯概率密度函數(shù)共用同一個協(xié)方差矩陣,還

5、可以是所有語音類別的GMM模型都共用同一個協(xié)方差矩陣。同時,協(xié)方差矩陣既可以是滿陣也可以是對角陣,但考慮到在模型的訓(xùn)練過程中需要用到協(xié)方差矩陣的逆,而矩陣求逆往往是一個非常耗時的過程,所以協(xié)方差矩陣一般采用對角陣的形式。采用GMM作為語音聲學(xué)模型的原因如下:(1)一個語音類別的聲學(xué)特征參數(shù)在特征空間的分布由該類別語音不同音的特征矢量的分布組成。對于語音檢出,可以認(rèn)為GMM的各個高斯成分模擬了同一類別語音不同的未知音素的聲學(xué)特征,每個高斯成分描述了不同的音素分布。(2)統(tǒng)計理論表明,用多個高斯概率密度函數(shù)的線性組合可以逼近

6、任意分布,因此,GMM可以對任意的語音特征分布進(jìn)行精確的描述。實際上,將GMM模型應(yīng)用于語音檢出任務(wù),用每個類別語音數(shù)據(jù)單獨訓(xùn)練一個GMM模型,在測試時測試語音對所有的GMM模型求對數(shù)似然度函數(shù),得分高的模型就判斷為目標(biāo)類別。同時,由于每個類別的數(shù)據(jù)可以積累較多,數(shù)據(jù)量可以得到保證,高斯數(shù)目一般較大,如128,由于這種特性,在語音檢出任務(wù)中這種方法的識別率一般較高。當(dāng)然,在基于概率統(tǒng)計模型的識別算法中,不僅模型結(jié)構(gòu)的選擇是否合適影響著最終的識別效果,模型參數(shù)的訓(xùn)練估計是否準(zhǔn)確同樣重要。模型訓(xùn)練是指對模型參數(shù)進(jìn)行估計,對于

7、高斯混合模型而言,即是對λ進(jìn)行估計。2最大似然估計訓(xùn)練方法對于高斯混合模型的訓(xùn)練,目前最常見的訓(xùn)練方法是采用MLE[7]。若給定訓(xùn)練樣本為X={x1,x2,?,xN},則基于MLE的目標(biāo)函數(shù)為:在參數(shù)估計之前,用K均值算法初始化模型,模型參數(shù)通過反復(fù)替換λ?=λ而提高。同時,為避免混亂,通過EM算法把整個訓(xùn)練過程看作MLE方法,把單個重估過程看作MLE重估,進(jìn)一步用MLE公式重估,直到滿足聚類規(guī)則的門限時終止,門限通常設(shè)置為觀察序列概率的對數(shù)的平均。通過最大似然估計訓(xùn)練得到的模型參數(shù),能夠保證訓(xùn)練數(shù)據(jù)在該模型上出現(xiàn)的概率

8、最大,很好地表征了訓(xùn)練樣本數(shù)據(jù)。但是MLE作為爬山算法,隨意選擇初始模型λ,即可導(dǎo)致局部最優(yōu),存在目標(biāo)函數(shù)不能直接最大化的問題。然而在語音檢出中,識別分類問題至少牽涉到兩個類別,因此,采用最大似然準(zhǔn)則訓(xùn)練得到的模型,對于識別分類問題并不一定是最好的。3區(qū)分性模型訓(xùn)練方法最小化分類錯誤(MCE)風(fēng)險原則的區(qū)分性模型訓(xùn)練

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。