基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)

ID：30642682

大?。?8.91 KB

頁(yè)數(shù)：6頁(yè)

時(shí)間：2019-01-02

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第1頁(yè)

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第2頁(yè)

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第3頁(yè)

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第4頁(yè)

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)_第5頁(yè)

資源描述：

《基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、從本學(xué)科出發(fā)，應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性，便于研究生提出新見(jiàn)解，特別是博士生必須有創(chuàng)新性的成果基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)摘要本文提出一種改進(jìn)的基于模型差別度量的說(shuō)話人聚類(SpeakerClustering)方法，并將該說(shuō)話人聚類算法結(jié)合最大似然線性回歸算法(MaximumLikelihoodLinearRegression，MLLR)構(gòu)成整體的說(shuō)話人自適應(yīng)框架。將該方法應(yīng)用于以音素為識(shí)別基元的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)中，可能夠提高系統(tǒng)的識(shí)別率，較好的滿足快速性和漸進(jìn)性。實(shí)驗(yàn)結(jié)果表明，該方法能夠在僅有一句自適應(yīng)

2、數(shù)據(jù)的情況下，使系統(tǒng)字正識(shí)率由%提高到%。關(guān)鍵詞說(shuō)話人聚類；說(shuō)話人自適應(yīng)近年來(lái)，語(yǔ)音識(shí)別[1]技術(shù)已經(jīng)日趨成熟，尤其對(duì)于特定人的語(yǔ)音識(shí)別十分準(zhǔn)確。大量實(shí)驗(yàn)結(jié)果表明，在訓(xùn)練數(shù)據(jù)都很充分而且各方面的條件都相同時(shí)，特定人(SpeakerDependent，SD)識(shí)別系統(tǒng)的性能通常好于非特定人(SpeakerIndependent，SI)系統(tǒng)。然而，當(dāng)某個(gè)特定人的訓(xùn)練數(shù)據(jù)受限時(shí)，由于缺少可靠估計(jì)模型所需要的足夠多的數(shù)據(jù)，SD系統(tǒng)的這種優(yōu)越性就不能得到保證。說(shuō)話人自適應(yīng)就是在一個(gè)針對(duì)原說(shuō)話人充分訓(xùn)練的SD系統(tǒng)中，或是一個(gè)對(duì)許多說(shuō)話者充分訓(xùn)練的SI系統(tǒng)中加入少

3、量新說(shuō)話人的訓(xùn)練語(yǔ)音數(shù)據(jù)，通過(guò)一定的算法使新老數(shù)據(jù)結(jié)合，從而使系統(tǒng)的識(shí)別率接近于對(duì)新說(shuō)話人經(jīng)過(guò)充分訓(xùn)練的SD系統(tǒng)的水平。課題份量和難易程度要恰當(dāng)，博士生能在二年內(nèi)作出結(jié)果，碩士生能在一年內(nèi)作出結(jié)果，特別是對(duì)實(shí)驗(yàn)條件等要有恰當(dāng)?shù)墓烙?jì)。從本學(xué)科出發(fā)，應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性，便于研究生提出新見(jiàn)解，特別是博士生必須有創(chuàng)新性的成果是說(shuō)話人自適應(yīng)技術(shù)的一種[2]，就是將原有的訓(xùn)練數(shù)據(jù)按照一定的算法聚類，識(shí)別時(shí)選取待識(shí)別語(yǔ)音所屬類別的模板進(jìn)行匹配，可以擴(kuò)大適用人群，提高系統(tǒng)性能。2主要自適應(yīng)算法說(shuō)話人聚類是直接根據(jù)說(shuō)話

4、人的某種特性，將訓(xùn)練集中的說(shuō)話人根據(jù)其語(yǔ)音特性分成若干個(gè)子集，每一個(gè)子集內(nèi)的說(shuō)話人都具有某種度量意義下的相似性，然后專門為每個(gè)子集訓(xùn)練聲學(xué)模型，從而得到一組離散度和混疊度較小的說(shuō)話人聚類模型；測(cè)試時(shí)，先判斷待測(cè)試的語(yǔ)音屬于哪一個(gè)說(shuō)話人子集，然后用這個(gè)子集的聲學(xué)模型來(lái)進(jìn)行測(cè)試[3]。應(yīng)用較為廣泛的是基于說(shuō)話人特性的和基于模型距離的聚類方法：說(shuō)話人特性包括說(shuō)話人的性別、年齡、口音等。這種方法利用先驗(yàn)的說(shuō)話人的特性，在滿足模型訓(xùn)練量的條件下，將說(shuō)話人分到更小的子集合中。一個(gè)最常用的例子就是按性別將說(shuō)話人進(jìn)行分類。這種方法通常需要先驗(yàn)知識(shí)，也就通常離不開人

5、工干預(yù)。的說(shuō)話人聚類方法直接根據(jù)不同說(shuō)話人對(duì)應(yīng)的聲學(xué)模型間的距離來(lái)進(jìn)行聚類。首先根據(jù)某種模型距離度量方法，建立模型間的距離矩陣，然后完成基于距離矩陣的聚類，其中的關(guān)鍵是聲學(xué)模型間距離的度量方法。高斯混合模型是基于模型距離說(shuō)話人聚類常用的模型，GMM的概率密度分布函數(shù)是由個(gè)高斯概率密度函數(shù)加權(quán)求和而得到的，如式(1)所示：其中是觀測(cè)值x在某個(gè)GMM模型下的概率密度函數(shù)。x是k維的隨機(jī)向量，是高斯混元的權(quán)值。是第i個(gè)單高斯分布概率密度函數(shù)，如(2)式：課題份量和難易程度要恰當(dāng)，博士生能在二年內(nèi)作出結(jié)果，碩士生能在一年內(nèi)作出結(jié)果，特別是對(duì)實(shí)驗(yàn)條件等要有恰

6、當(dāng)?shù)墓烙?jì)。從本學(xué)科出發(fā)，應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性，便于研究生提出新見(jiàn)解，特別是博士生必須有創(chuàng)新性的成果對(duì)高斯混合模型而言，模型距離的定義最終可以歸入分布間的距離衡量。其中常用的有如下幾種：歐式距離(EuclideanDistance)：馬氏距離巴特查里亞距離其中，，表示兩個(gè)多維高斯分布，為兩個(gè)分布的均值向量，表示兩個(gè)分布的協(xié)方差矩陣。最大似然線性回歸法(MaximumLikelihoodLinearRegression，MLLR)是一種基于變換的方法，它采用一組變換描述從初始模型到說(shuō)話人自適應(yīng)(Speake

7、rAdaptation，SA)后模型的變換關(guān)系，另外MLLR還能對(duì)不同的信道及附加噪聲有一定補(bǔ)償作用。一般認(rèn)為不同說(shuō)話人之間的差異主要表現(xiàn)在均值矢量上，式(6)為均值轉(zhuǎn)換的估計(jì)式。其中是混合成份s的轉(zhuǎn)移矩陣，是自適應(yīng)后的均值后的均值向量，是混合成分s的擴(kuò)展均值向量，其定義如下：可以將一個(gè)GMM的參數(shù)看作一組語(yǔ)音特征，考察這組特征在另一個(gè)GMM中的輸出概率。用輸出概率來(lái)衡量?jī)蓚€(gè)模型間的距離[4]。其方法如下：把GMMA的M個(gè)混元的均值向量當(dāng)作M個(gè)觀測(cè)向量，計(jì)算這M個(gè)觀測(cè)矢量在GMMB下的概率。類似地，計(jì)算GMMB的M個(gè)混元的均值向量在GMMA下的概率

8、。定義GMMA和GMMB的單邊加權(quán)似然度為：其中，CAi表示GMMA第i個(gè)混元的權(quán)值，μAi表示第i個(gè)混元的均值向量，表示

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)

基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)

相關(guān)文章

相關(guān)標(biāo)簽