資源描述:
《基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、從本學(xué)科出發(fā),應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見(jiàn)解,特別是博士生必須有創(chuàng)新性的成果基于說(shuō)話人聚類的說(shuō)話人自適應(yīng)摘要本文提出一種改進(jìn)的基于模型差別度量的說(shuō)話人聚類(SpeakerClustering)方法,并將該說(shuō)話人聚類算法結(jié)合最大似然線性回歸算法(MaximumLikelihoodLinearRegression,MLLR)構(gòu)成整體的說(shuō)話人自適應(yīng)框架。將該方法應(yīng)用于以音素為識(shí)別基元的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,可能夠提高系統(tǒng)的識(shí)別率,較好的滿足快速性和漸進(jìn)性。實(shí)驗(yàn)結(jié)果表明,該方法能夠在僅有一句自適應(yīng)
2、數(shù)據(jù)的情況下,使系統(tǒng)字正識(shí)率由%提高到%。關(guān)鍵詞說(shuō)話人聚類;說(shuō)話人自適應(yīng)近年來(lái),語(yǔ)音識(shí)別[1]技術(shù)已經(jīng)日趨成熟,尤其對(duì)于特定人的語(yǔ)音識(shí)別十分準(zhǔn)確。大量實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練數(shù)據(jù)都很充分而且各方面的條件都相同時(shí),特定人(SpeakerDependent,SD)識(shí)別系統(tǒng)的性能通常好于非特定人(SpeakerIndependent,SI)系統(tǒng)。然而,當(dāng)某個(gè)特定人的訓(xùn)練數(shù)據(jù)受限時(shí),由于缺少可靠估計(jì)模型所需要的足夠多的數(shù)據(jù),SD系統(tǒng)的這種優(yōu)越性就不能得到保證。說(shuō)話人自適應(yīng)就是在一個(gè)針對(duì)原說(shuō)話人充分訓(xùn)練的SD系統(tǒng)中,或是一個(gè)對(duì)許多說(shuō)話者充分訓(xùn)練的SI系統(tǒng)中加入少
3、量新說(shuō)話人的訓(xùn)練語(yǔ)音數(shù)據(jù),通過(guò)一定的算法使新老數(shù)據(jù)結(jié)合,從而使系統(tǒng)的識(shí)別率接近于對(duì)新說(shuō)話人經(jīng)過(guò)充分訓(xùn)練的SD系統(tǒng)的水平。課題份量和難易程度要恰當(dāng),博士生能在二年內(nèi)作出結(jié)果,碩士生能在一年內(nèi)作出結(jié)果,特別是對(duì)實(shí)驗(yàn)條件等要有恰當(dāng)?shù)墓烙?jì)。從本學(xué)科出發(fā),應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見(jiàn)解,特別是博士生必須有創(chuàng)新性的成果是說(shuō)話人自適應(yīng)技術(shù)的一種[2],就是將原有的訓(xùn)練數(shù)據(jù)按照一定的算法聚類,識(shí)別時(shí)選取待識(shí)別語(yǔ)音所屬類別的模板進(jìn)行匹配,可以擴(kuò)大適用人群,提高系統(tǒng)性能。2主要自適應(yīng)算法說(shuō)話人聚類是直接根據(jù)說(shuō)話
4、人的某種特性,將訓(xùn)練集中的說(shuō)話人根據(jù)其語(yǔ)音特性分成若干個(gè)子集,每一個(gè)子集內(nèi)的說(shuō)話人都具有某種度量意義下的相似性,然后專門為每個(gè)子集訓(xùn)練聲學(xué)模型,從而得到一組離散度和混疊度較小的說(shuō)話人聚類模型;測(cè)試時(shí),先判斷待測(cè)試的語(yǔ)音屬于哪一個(gè)說(shuō)話人子集,然后用這個(gè)子集的聲學(xué)模型來(lái)進(jìn)行測(cè)試[3]。應(yīng)用較為廣泛的是基于說(shuō)話人特性的和基于模型距離的聚類方法:說(shuō)話人特性包括說(shuō)話人的性別、年齡、口音等。這種方法利用先驗(yàn)的說(shuō)話人的特性,在滿足模型訓(xùn)練量的條件下,將說(shuō)話人分到更小的子集合中。一個(gè)最常用的例子就是按性別將說(shuō)話人進(jìn)行分類。這種方法通常需要先驗(yàn)知識(shí),也就通常離不開人
5、工干預(yù)。的說(shuō)話人聚類方法直接根據(jù)不同說(shuō)話人對(duì)應(yīng)的聲學(xué)模型間的距離來(lái)進(jìn)行聚類。首先根據(jù)某種模型距離度量方法,建立模型間的距離矩陣,然后完成基于距離矩陣的聚類,其中的關(guān)鍵是聲學(xué)模型間距離的度量方法。高斯混合模型是基于模型距離說(shuō)話人聚類常用的模型,GMM的概率密度分布函數(shù)是由個(gè)高斯概率密度函數(shù)加權(quán)求和而得到的,如式(1)所示:其中是觀測(cè)值x在某個(gè)GMM模型下的概率密度函數(shù)。x是k維的隨機(jī)向量,是高斯混元的權(quán)值。是第i個(gè)單高斯分布概率密度函數(shù),如(2)式:課題份量和難易程度要恰當(dāng),博士生能在二年內(nèi)作出結(jié)果,碩士生能在一年內(nèi)作出結(jié)果,特別是對(duì)實(shí)驗(yàn)條件等要有恰
6、當(dāng)?shù)墓烙?jì)。從本學(xué)科出發(fā),應(yīng)著重選對(duì)國(guó)民經(jīng)濟(jì)具有一定實(shí)用價(jià)值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見(jiàn)解,特別是博士生必須有創(chuàng)新性的成果對(duì)高斯混合模型而言,模型距離的定義最終可以歸入分布間的距離衡量。其中常用的有如下幾種:歐式距離(EuclideanDistance):馬氏距離巴特查里亞距離其中,,表示兩個(gè)多維高斯分布,為兩個(gè)分布的均值向量,表示兩個(gè)分布的協(xié)方差矩陣。最大似然線性回歸法(MaximumLikelihoodLinearRegression,MLLR)是一種基于變換的方法,它采用一組變換描述從初始模型到說(shuō)話人自適應(yīng)(Speake
7、rAdaptation,SA)后模型的變換關(guān)系,另外MLLR還能對(duì)不同的信道及附加噪聲有一定補(bǔ)償作用。一般認(rèn)為不同說(shuō)話人之間的差異主要表現(xiàn)在均值矢量上,式(6)為均值轉(zhuǎn)換的估計(jì)式。其中是混合成份s的轉(zhuǎn)移矩陣,是自適應(yīng)后的均值后的均值向量,是混合成分s的擴(kuò)展均值向量,其定義如下:可以將一個(gè)GMM的參數(shù)看作一組語(yǔ)音特征,考察這組特征在另一個(gè)GMM中的輸出概率。用輸出概率來(lái)衡量?jī)蓚€(gè)模型間的距離[4]。其方法如下:把GMMA的M個(gè)混元的均值向量當(dāng)作M個(gè)觀測(cè)向量,計(jì)算這M個(gè)觀測(cè)矢量在GMMB下的概率。類似地,計(jì)算GMMB的M個(gè)混元的均值向量在GMMA下的概率
8、。定義GMMA和GMMB的單邊加權(quán)似然度為:其中,CAi表示GMMA第i個(gè)混元的權(quán)值,μAi表示第i個(gè)混元的均值向量,表示