資源描述:
《基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究由于說(shuō)話人的語(yǔ)音特征和個(gè)性特征到目前為止無(wú)法很好地分離,本文提出了基于語(yǔ)音分類的說(shuō)話人多維特征的提取方法,將語(yǔ)音識(shí)別技術(shù)應(yīng)用到說(shuō)話人特征提取上,提取出的N維組合特征較其它普通特征有更高的有效性。該方法從漢語(yǔ)語(yǔ)音的特點(diǎn)出發(fā),對(duì)基于漢語(yǔ)的說(shuō)話人識(shí)別進(jìn)行研究。實(shí)驗(yàn)結(jié)果表明它的有效性較長(zhǎng)時(shí)平均特征的有效性提高了2.915%?! £P(guān)鍵詞:說(shuō)話人識(shí)別;語(yǔ)音識(shí)別技術(shù);特征提?。粷h語(yǔ)元音分類1.引言 說(shuō)話人識(shí)別,是一項(xiàng)根據(jù)語(yǔ)音波形中反映說(shuō)話人生理、心理和行為特征的語(yǔ)音參數(shù),自動(dòng)識(shí)別說(shuō)話人身份的技術(shù)[1]。目前大量的科研機(jī)構(gòu)對(duì)說(shuō)話人識(shí)
2、別進(jìn)行了廣泛而深入的研究,說(shuō)話人識(shí)別現(xiàn)階段取得了許多卓有成效的科研成果[2-6],常用模型有高斯混合模型(GMM),隱馬爾可夫模型(HMM),支持向量機(jī)模型(SVM)以及矢量量化模型(VQ),這些模型各有其優(yōu)點(diǎn),也都有自己的不足之處?! 榱诉M(jìn)一步提高說(shuō)話人識(shí)別辨認(rèn)系統(tǒng)的性能,本文將從漢語(yǔ)語(yǔ)音自身結(jié)構(gòu)的特點(diǎn)出發(fā),將語(yǔ)音識(shí)別技術(shù)應(yīng)用到說(shuō)話人識(shí)別技術(shù)上,提出了基于漢語(yǔ)語(yǔ)音分類的說(shuō)話人多維特征的提取方法。首先對(duì)語(yǔ)音進(jìn)行分類識(shí)別,然后根據(jù)類別特征提取多維說(shuō)話人特征,最后通過(guò)實(shí)驗(yàn)驗(yàn)證了本文提出的方法的有效性。2.語(yǔ)音分類識(shí)別方法 現(xiàn)代漢語(yǔ)語(yǔ)音的基礎(chǔ)是漢語(yǔ)拼音,由10
3、個(gè)元音和22個(gè)輔音組成,共計(jì)21個(gè)聲母和38個(gè)韻母[7]。漢語(yǔ)語(yǔ)音中的韻母都是由單元音音素(a,o,e,i,u,ü)組合而成,一個(gè)復(fù)韻音中包含了兩個(gè)或者兩個(gè)以上的單元音音素,在發(fā)音過(guò)程中聲道形狀會(huì)由前一個(gè)音素向后一個(gè)音素滑動(dòng),當(dāng)?shù)竭_(dá)音素聲道位置后會(huì)有一個(gè)相對(duì)穩(wěn)定的過(guò)程。因此,本文將說(shuō)話人語(yǔ)音根據(jù)單元音音素分為六類,對(duì)分割出的語(yǔ)音進(jìn)行分類識(shí)別,語(yǔ)音分類識(shí)別模型如圖1所示。2.1語(yǔ)音的分割與特征提取 由于本文僅對(duì)語(yǔ)音內(nèi)六個(gè)元音進(jìn)行分割,而且所有的元音都是濁音[7-9],因此,語(yǔ)音的末點(diǎn)檢測(cè)不存在什么困難。對(duì)于元音的起點(diǎn)檢測(cè)也是困難不大,因?yàn)闈嵋糨^語(yǔ)音剛開(kāi)始一段
4、的輔音,能量一般都較大。采用短時(shí)能量和短時(shí)平均過(guò)零率的約束就能分割出所需要的語(yǔ)音,具體的約束條件如下:2.2語(yǔ)音的分類、識(shí)別與篩選 對(duì)標(biāo)注的語(yǔ)音幀提取特征后,我們需要對(duì)選中的發(fā)音進(jìn)行篩選、分類和識(shí)別。標(biāo)注語(yǔ)音的特征都是以語(yǔ)音幀存在的,而文中要處理單個(gè)發(fā)音,因此必須判斷一個(gè)發(fā)音的起始和結(jié)束位置。在語(yǔ)音幀上,連續(xù)被標(biāo)注的一系列幀即可被看作一個(gè)發(fā)音,判別公式如下:3.基于語(yǔ)音分類技術(shù)的說(shuō)話人特征提取 經(jīng)過(guò)前面的處理后,我們把所有選中語(yǔ)音幀中所屬類的特征作為一類特征集,這樣語(yǔ)音模板中有N類特征(文中為六類),待測(cè)說(shuō)話人的特征也將被分為N類。對(duì)每類特征集,求其均值
5、中心作為說(shuō)話人識(shí)別的特征矢量。4.實(shí)驗(yàn)結(jié)果與比較分析 本實(shí)驗(yàn)所用的語(yǔ)音數(shù)據(jù)均使用北京七九七公司生產(chǎn)的中音公司的MAYA44.V3專業(yè)數(shù)字音頻卡采集,其采樣頻率為96kHz,采用24Bit量化。錄音在普通實(shí)驗(yàn)室環(huán)境下進(jìn)行,所錄數(shù)據(jù)一部分用于訓(xùn)練,另一部分用于測(cè)試。語(yǔ)音信號(hào)先進(jìn)行歸一化,按照幀長(zhǎng)取1024點(diǎn),幀交疊30%,1-0.99Z-1預(yù)加重,時(shí)域計(jì)算加矩形窗,頻域加漢寧窗。線性預(yù)測(cè)分析時(shí)采用20階預(yù)測(cè)器階數(shù),然后根據(jù)公式(4)計(jì)算256個(gè)線性預(yù)測(cè)倒譜系數(shù)(LPCC),形成語(yǔ)音特征矢量序列。實(shí)驗(yàn)中特征類別為六類。4.1域值選取 語(yǔ)音分割時(shí)所需的短時(shí)能量和
6、短時(shí)過(guò)零率的約束域值的選定我們采用實(shí)驗(yàn)的方法。如表1中所示,能量和過(guò)零率域值取最大值的百分?jǐn)?shù),是能量百分?jǐn)?shù);是過(guò)零率的百分?jǐn)?shù)。R是正確判正率,E~1pmso1