資源描述:
《基于全局背景模型和輔助模型的說話人確認系統(tǒng)的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第36卷第2期信息化研究V01.36No.22010年2月InformatizationResearchFeb.2010基于全局背景模型和輔助模型的說話人確認系統(tǒng)的研究湯小飛,曾毓敏,李曉偉(南京師范大學(xué)物理科學(xué)與技術(shù)學(xué)院,江蘇省南京市210097)摘要:大多數(shù)說話人確認系統(tǒng)都設(shè)置一個背景模型用于描述假冒者的特性。文中提出一種新的說話人確認背景模型,對所有說話人采用同一全局背景模型(UBM),并為每個說話人建立一個競爭者模型(coho~mode1)和一個疏遠者模型(c—coho~mode1)。在全局背景模型不能做出準確判斷的情況下,啟用競爭者模型或疏遠者模型再次進行判決。
2、該模型充分利用了相近者模型和疏遠者模型的特性。實驗表明新的背景模型使系統(tǒng)性能有明顯的提高。關(guān)鍵詞:說話人確認;背景模型;全局背景模型;競爭者模型;疏遠者模型中圖分類號:TP181模型表示特征空間中一般說話人的特性;另一方面對0引言相近的假冒者和聲學(xué)特征相差很大的假冒者。對測試說話人確認是一個二元判決問題,即給定說話人句判決時,先利用同樣UBM模型將判決空間分成兩個的確認語句及其身份,系統(tǒng)做出接受或拒絕的判斷。區(qū)域,對于落入不確定區(qū)域的測試句,啟用相應(yīng)的競爭大多數(shù)說話人確認系統(tǒng)都設(shè)置一個背景模型,用于描者模型和疏遠者模型重新做出判決。這樣充分利用了述假冒者的特性。假設(shè)某一用
3、戶的性質(zhì)為0,則假冒三個模型的互補性,可提高系統(tǒng)的識別率,而增加的計者背景模型的作用就是要準確描述0的非,即0。理算開銷不多。論上,背景模型中說話人越多,則越能描述0。1說話人確認中的背景模型被廣為研究的假冒者模型大致可分為兩種:一種是全局模型(UBM);一種是競爭者模型(coho~mod.1.1說話人確認系統(tǒng)e1)。這兩個模型各有優(yōu)缺點,全局模型對聲學(xué)特征相說話人確認是一個假設(shè)檢驗問題,即給定測試語差比較大的區(qū)分性能較強,而對聲學(xué)特征相近的識別音,在下列兩個事件中做出選擇:Hl:是由真實說較差。競爭者模型可以較好地區(qū)分聲學(xué)特征相近的假話人發(fā)出,H0:X是由假冒者發(fā)出。如
4、圖l所示。冒者,但對聲學(xué)特征相差較大的則區(qū)分性能較差?。全局模型和競爭者模型分別代表特征空問中的不同區(qū)域J,因此可考慮將兩者級聯(lián)。對每個說話人分別建立一個全局背景模型和競爭者模型。測試時,先用全局背景模型對測試語句進行判決。當測試語句在圖1說話人確認系統(tǒng)全局模型無法判定時,進入競爭者模型進行第二次判本文采用GMM(高斯混合模型)作為聲稱者模決。對每個說話人采用不同的全局模型,即為每一位型3J。GMM本質(zhì)上是一種多維概率密度函數(shù)。一個注冊者分別建立一個全局模型,這樣雖然使每個說話具有個混合數(shù)的D維GMM可用m個高斯分量的人背景模型的描述更加精確,但是整個確認系統(tǒng)更加加權(quán)和來
5、表示:復(fù)雜,增加了計算量。對每個人都準備一個全局模型耗費的時間是巨大的,所以研究者們又提出一種所有p(一xIA):∑O)ib()(1)lI人都只用同一個全局模型的方法。其中:表示觀測向量;表示每個混合加權(quán)值,且本文提出一種以UBM為主,競爭者模型和疏遠者模型為輔的背景模型。對所有的聲稱者而言,用UBM∑=1。bi(),l,2,3?,m表示每個混合D維高斯密度函數(shù),即:收稿日期:2009—11—19;修回日期:2009-12-20?!?9··研究與設(shè)計·信息化研究2010年2月式中:為測試語句的幀數(shù)。。對說話人確認系統(tǒng)而言,背景模型的歸一化作用非常重要J。因為絕對似然分數(shù)容
6、易受許多與發(fā)音exP{一1—I—xi)∑-I(一t—xi)}(2)有關(guān)因素的影響,例如說話人聲道特性、發(fā)音文本內(nèi)式中:五表示均值矢量;∑‘表示協(xié)方差矩陣]。所容、語音質(zhì)量等。這些因素會導(dǎo)致決策門限不易設(shè)定?!痩以如果我們以A表示GMM的參數(shù),整個高斯混合模型設(shè)定背景模型可增強說話人之間的可分離性,使決策門限的設(shè)置更方便,有利于削減說話人的背景干擾,以由單個高斯模型的均值矢量、協(xié)方差矩陣、混合模型權(quán)及將說話人語音聲學(xué)特性的變異性歸一化。值共同組成,如下式:1.3競爭者模型以及疏遠者模型A={∞,/x,∑},=l,2,3,?,m(3)Reynolds提出了如何選擇競爭者模型的
7、方法,GMM的訓(xùn)練就是對GMM參數(shù)的估計,使它和用定義一個距離d來衡量兩個說話人模型和之問的于訓(xùn)練的特征矢量分布最相近。當前GMM訓(xùn)練最流距離:行的算法是最大似然估計(ML)算法。在說話人確認系統(tǒng)中,確認錯誤由誤拒率FR和d(Ai,Ajg+lg(7)誤受率FA來表示,前者是拒絕真實的聲稱者造成的式中:和分別表示第和個人的測試語句;A和錯誤,后者則是把假冒者錯認為其聲稱者而造成的錯A分別代表兩個說話人的模型。兩個模型的特性越相誤。隨著判決門限的提高,F(xiàn)A逐漸下降,F(xiàn)R逐漸升近,則距離d越小。在假冒者為聲學(xué)特性比較相近的情高,在F