基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)

ID:30642682

大?。?8.91 KB

頁(yè)數(shù):6頁(yè)

時(shí)間:2019-01-02

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第1頁(yè)
基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第2頁(yè)
基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第3頁(yè)
基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第4頁(yè)
基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第5頁(yè)
資源描述:

《基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、從本學(xué)科出發(fā),應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見(jiàn)解,特別是博士生必須有創(chuàng)新性的成果基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)摘要本文提出一種改進(jìn)的基于模型差別度量的說(shuō)話人聚類(SpeakerClustering)方法,并將該說(shuō)話人聚類算法結(jié)合最大似然線性回歸算法(MaximumLikelihoodLinearRegression,MLLR)構(gòu)成整體的說(shuō)話人自適應(yīng)框架。將該方法應(yīng)用于以音素為識(shí)別基元的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,可能夠提高系統(tǒng)的識(shí)別率,較好的滿足快速性和漸進(jìn)性。實(shí)驗(yàn)結(jié)果表明,該方法能夠在僅有一句自適應(yīng)

2、數(shù)據(jù)的情況下,使系統(tǒng)字正識(shí)率由%提高到%。關(guān)鍵詞說(shuō)話人聚類;說(shuō)話人自適應(yīng)近年來(lái),語(yǔ)音識(shí)別[1]技術(shù)已經(jīng)日趨成熟,尤其對(duì)于特定人的語(yǔ)音識(shí)別十分準(zhǔn)確。大量實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練數(shù)據(jù)都很充分而且各方面的條件都相同時(shí),特定人(SpeakerDependent,SD)識(shí)別系統(tǒng)的性能通常好于非特定人(SpeakerIndependent,SI)系統(tǒng)。然而,當(dāng)某個(gè)特定人的訓(xùn)練數(shù)據(jù)受限時(shí),由于缺少可靠估計(jì)模型所需要的足夠多的數(shù)據(jù),SD系統(tǒng)的這種優(yōu)越性就不能得到保證。說(shuō)話人自適應(yīng)就是在一個(gè)針對(duì)原說(shuō)話人充分訓(xùn)練的SD系統(tǒng)中,或是一個(gè)對(duì)許多說(shuō)話者充分訓(xùn)練的SI系統(tǒng)中加入少

3、量新說(shuō)話人的訓(xùn)練語(yǔ)音數(shù)據(jù),通過(guò)一定的算法使新老數(shù)據(jù)結(jié)合,從而使系統(tǒng)的識(shí)別率接近于對(duì)新說(shuō)話人經(jīng)過(guò)充分訓(xùn)練的SD系統(tǒng)的水平。課題份量和難易程度要恰當(dāng),博士生能在二年內(nèi)作出結(jié)果,碩士生能在一年內(nèi)作出結(jié)果,特別是對(duì)實(shí)驗(yàn)條件等要有恰當(dāng)?shù)墓烙?jì)。從本學(xué)科出發(fā),應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見(jiàn)解,特別是博士生必須有創(chuàng)新性的成果是說(shuō)話人自適應(yīng)技術(shù)的一種[2],就是將原有的訓(xùn)練數(shù)據(jù)按照一定的算法聚類,識(shí)別時(shí)選取待識(shí)別語(yǔ)音所屬類別的模板進(jìn)行匹配,可以擴(kuò)大適用人群,提高系統(tǒng)性能。2主要自適應(yīng)算法說(shuō)話人聚類是直接根據(jù)說(shuō)話

4、人的某種特性,將訓(xùn)練集中的說(shuō)話人根據(jù)其語(yǔ)音特性分成若干個(gè)子集,每一個(gè)子集內(nèi)的說(shuō)話人都具有某種度量意義下的相似性,然后專門為每個(gè)子集訓(xùn)練聲學(xué)模型,從而得到一組離散度和混疊度較小的說(shuō)話人聚類模型;測(cè)試時(shí),先判斷待測(cè)試的語(yǔ)音屬于哪一個(gè)說(shuō)話人子集,然后用這個(gè)子集的聲學(xué)模型來(lái)進(jìn)行測(cè)試[3]。應(yīng)用較為廣泛的是基于說(shuō)話人特性的和基于模型距離的聚類方法:說(shuō)話人特性包括說(shuō)話人的性別、年齡、口音等。這種方法利用先驗(yàn)的說(shuō)話人的特性,在滿足模型訓(xùn)練量的條件下,將說(shuō)話人分到更小的子集合中。一個(gè)最常用的例子就是按性別將說(shuō)話人進(jìn)行分類。這種方法通常需要先驗(yàn)知識(shí),也就通常離不開人

5、工干預(yù)。的說(shuō)話人聚類方法直接根據(jù)不同說(shuō)話人對(duì)應(yīng)的聲學(xué)模型間的距離來(lái)進(jìn)行聚類。首先根據(jù)某種模型距離度量方法,建立模型間的距離矩陣,然后完成基于距離矩陣的聚類,其中的關(guān)鍵是聲學(xué)模型間距離的度量方法。高斯混合模型是基于模型距離說(shuō)話人聚類常用的模型,GMM的概率密度分布函數(shù)是由個(gè)高斯概率密度函數(shù)加權(quán)求和而得到的,如式(1)所示:其中是觀測(cè)值x在某個(gè)GMM模型下的概率密度函數(shù)。x是k維的隨機(jī)向量,是高斯混元的權(quán)值。是第i個(gè)單高斯分布概率密度函數(shù),如(2)式:課題份量和難易程度要恰當(dāng),博士生能在二年內(nèi)作出結(jié)果,碩士生能在一年內(nèi)作出結(jié)果,特別是對(duì)實(shí)驗(yàn)條件等要有恰

6、當(dāng)?shù)墓烙?jì)。從本學(xué)科出發(fā),應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見(jiàn)解,特別是博士生必須有創(chuàng)新性的成果對(duì)高斯混合模型而言,模型距離的定義最終可以歸入分布間的距離衡量。其中常用的有如下幾種:歐式距離(EuclideanDistance):馬氏距離巴特查里亞距離其中,,表示兩個(gè)多維高斯分布,為兩個(gè)分布的均值向量,表示兩個(gè)分布的協(xié)方差矩陣。最大似然線性回歸法(MaximumLikelihoodLinearRegression,MLLR)是一種基于變換的方法,它采用一組變換描述從初始模型到說(shuō)話人自適應(yīng)(Speake

7、rAdaptation,SA)后模型的變換關(guān)系,另外MLLR還能對(duì)不同的信道及附加噪聲有一定補(bǔ)償作用。一般認(rèn)為不同說(shuō)話人之間的差異主要表現(xiàn)在均值矢量上,式(6)為均值轉(zhuǎn)換的估計(jì)式。其中是混合成份s的轉(zhuǎn)移矩陣,是自適應(yīng)后的均值后的均值向量,是混合成分s的擴(kuò)展均值向量,其定義如下:可以將一個(gè)GMM的參數(shù)看作一組語(yǔ)音特征,考察這組特征在另一個(gè)GMM中的輸出概率。用輸出概率來(lái)衡量?jī)蓚€(gè)模型間的距離[4]。其方法如下:把GMMA的M個(gè)混元的均值向量當(dāng)作M個(gè)觀測(cè)向量,計(jì)算這M個(gè)觀測(cè)矢量在GMMB下的概率。類似地,計(jì)算GMMB的M個(gè)混元的均值向量在GMMA下的概率

8、。定義GMMA和GMMB的單邊加權(quán)似然度為:其中,CAi表示GMMA第i個(gè)混元的權(quán)值,μAi表示第i個(gè)混元的均值向量,表示

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。