資源描述:
《基于漢語元音分類的多維特征說話人辨認(rèn)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于漢語元音分類的多維特征說話人辨認(rèn)研究由于說話人的語音特征和個(gè)性特征到目前為止無法很好地分離,本文提出了基于語音分類的說話人多維特征的提取方法,將語音識(shí)別技術(shù)應(yīng)用到說話人特征提取上,提取出的N維組合特征較其它普通特征有更高的有效性。該方法從漢語語音的特點(diǎn)出發(fā),對(duì)基于漢語的說話人識(shí)別進(jìn)行研究。實(shí)驗(yàn)結(jié)果表明它的有效性較長(zhǎng)時(shí)平均特征的有效性提高了2.915%?! £P(guān)鍵詞:說話人識(shí)別;語音識(shí)別技術(shù);特征提?。粷h語元音分類1.引言 說話人識(shí)別,是一項(xiàng)根據(jù)語音波形中反映說話人生理、心理和行為特征的語音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)[1]。目前大量的科研機(jī)構(gòu)對(duì)說話人識(shí)
2、別進(jìn)行了廣泛而深入的研究,說話人識(shí)別現(xiàn)階段取得了許多卓有成效的科研成果[2-6],常用模型有高斯混合模型(GMM),隱馬爾可夫模型(HMM),支持向量機(jī)模型(SVM)以及矢量量化模型(VQ),這些模型各有其優(yōu)點(diǎn),也都有自己的不足之處?! 榱诉M(jìn)一步提高說話人識(shí)別辨認(rèn)系統(tǒng)的性能,本文將從漢語語音自身結(jié)構(gòu)的特點(diǎn)出發(fā),將語音識(shí)別技術(shù)應(yīng)用到說話人識(shí)別技術(shù)上,提出了基于漢語語音分類的說話人多維特征的提取方法。首先對(duì)語音進(jìn)行分類識(shí)別,然后根據(jù)類別特征提取多維說話人特征,最后通過實(shí)驗(yàn)驗(yàn)證了本文提出的方法的有效性。2.語音分類識(shí)別方法 現(xiàn)代漢語語音的基礎(chǔ)是漢語拼音,由10
3、個(gè)元音和22個(gè)輔音組成,共計(jì)21個(gè)聲母和38個(gè)韻母[7]。漢語語音中的韻母都是由單元音音素(a,o,e,i,u,ü)組合而成,一個(gè)復(fù)韻音中包含了兩個(gè)或者兩個(gè)以上的單元音音素,在發(fā)音過程中聲道形狀會(huì)由前一個(gè)音素向后一個(gè)音素滑動(dòng),當(dāng)?shù)竭_(dá)音素聲道位置后會(huì)有一個(gè)相對(duì)穩(wěn)定的過程。因此,本文將說話人語音根據(jù)單元音音素分為六類,對(duì)分割出的語音進(jìn)行分類識(shí)別,語音分類識(shí)別模型如圖1所示。2.1語音的分割與特征提取 由于本文僅對(duì)語音內(nèi)六個(gè)元音進(jìn)行分割,而且所有的元音都是濁音[7-9],因此,語音的末點(diǎn)檢測(cè)不存在什么困難。對(duì)于元音的起點(diǎn)檢測(cè)也是困難不大,因?yàn)闈嵋糨^語音剛開始一段
4、的輔音,能量一般都較大。采用短時(shí)能量和短時(shí)平均過零率的約束就能分割出所需要的語音,具體的約束條件如下:2.2語音的分類、識(shí)別與篩選 對(duì)標(biāo)注的語音幀提取特征后,我們需要對(duì)選中的發(fā)音進(jìn)行篩選、分類和識(shí)別。標(biāo)注語音的特征都是以語音幀存在的,而文中要處理單個(gè)發(fā)音,因此必須判斷一個(gè)發(fā)音的起始和結(jié)束位置。在語音幀上,連續(xù)被標(biāo)注的一系列幀即可被看作一個(gè)發(fā)音,判別公式如下:3.基于語音分類技術(shù)的說話人特征提取 經(jīng)過前面的處理后,我們把所有選中語音幀中所屬類的特征作為一類特征集,這樣語音模板中有N類特征(文中為六類),待測(cè)說話人的特征也將被分為N類。對(duì)每類特征集,求其均值
5、中心作為說話人識(shí)別的特征矢量。4.實(shí)驗(yàn)結(jié)果與比較分析 本實(shí)驗(yàn)所用的語音數(shù)據(jù)均使用北京七九七公司生產(chǎn)的中音公司的MAYA44.V3專業(yè)數(shù)字音頻卡采集,其采樣頻率為96kHz,采用24Bit量化。錄音在普通實(shí)驗(yàn)室環(huán)境下進(jìn)行,所錄數(shù)據(jù)一部分用于訓(xùn)練,另一部分用于測(cè)試。語音信號(hào)先進(jìn)行歸一化,按照幀長(zhǎng)取1024點(diǎn),幀交疊30%,1-0.99Z-1預(yù)加重,時(shí)域計(jì)算加矩形窗,頻域加漢寧窗。線性預(yù)測(cè)分析時(shí)采用20階預(yù)測(cè)器階數(shù),然后根據(jù)公式(4)計(jì)算256個(gè)線性預(yù)測(cè)倒譜系數(shù)(LPCC),形成語音特征矢量序列。實(shí)驗(yàn)中特征類別為六類。4.1域值選取 語音分割時(shí)所需的短時(shí)能量和
6、短時(shí)過零率的約束域值的選定我們采用實(shí)驗(yàn)的方法。如表1中所示,能量和過零率域值取最大值的百分?jǐn)?shù),是能量百分?jǐn)?shù);是過零率的百分?jǐn)?shù)。R是正確判正率,E~1pmso1