基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究

ID：24376029

大?。?0.00 KB

頁(yè)數(shù)：4頁(yè)

時(shí)間：2018-11-14

基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究_第1頁(yè)

基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究_第2頁(yè)

基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究_第3頁(yè)

基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究_第4頁(yè)

資源描述：

《基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究由于說(shuō)話人的語(yǔ)音特征和個(gè)性特征到目前為止無(wú)法很好地分離，本文提出了基于語(yǔ)音分類的說(shuō)話人多維特征的提取方法，將語(yǔ)音識(shí)別技術(shù)應(yīng)用到說(shuō)話人特征提取上，提取出的N維組合特征較其它普通特征有更高的有效性。該方法從漢語(yǔ)語(yǔ)音的特點(diǎn)出發(fā)，對(duì)基于漢語(yǔ)的說(shuō)話人識(shí)別進(jìn)行研究。實(shí)驗(yàn)結(jié)果表明它的有效性較長(zhǎng)時(shí)平均特征的有效性提高了2.915%?！　￡P(guān)鍵詞：說(shuō)話人識(shí)別；語(yǔ)音識(shí)別技術(shù)；特征提?。粷h語(yǔ)元音分類1．引言　　說(shuō)話人識(shí)別，是一項(xiàng)根據(jù)語(yǔ)音波形中反映說(shuō)話人生理、心理和行為特征的語(yǔ)音參數(shù)，自動(dòng)識(shí)別說(shuō)話人身份的技術(shù)[1]。目前大量的科研機(jī)構(gòu)對(duì)說(shuō)話人識(shí)

2、別進(jìn)行了廣泛而深入的研究，說(shuō)話人識(shí)別現(xiàn)階段取得了許多卓有成效的科研成果[2-6]，常用模型有高斯混合模型(GMM)，隱馬爾可夫模型(HMM)，支持向量機(jī)模型(SVM)以及矢量量化模型(VQ)，這些模型各有其優(yōu)點(diǎn)，也都有自己的不足之處?！　榱诉M(jìn)一步提高說(shuō)話人識(shí)別辨認(rèn)系統(tǒng)的性能，本文將從漢語(yǔ)語(yǔ)音自身結(jié)構(gòu)的特點(diǎn)出發(fā)，將語(yǔ)音識(shí)別技術(shù)應(yīng)用到說(shuō)話人識(shí)別技術(shù)上，提出了基于漢語(yǔ)語(yǔ)音分類的說(shuō)話人多維特征的提取方法。首先對(duì)語(yǔ)音進(jìn)行分類識(shí)別，然后根據(jù)類別特征提取多維說(shuō)話人特征，最后通過(guò)實(shí)驗(yàn)驗(yàn)證了本文提出的方法的有效性。2．語(yǔ)音分類識(shí)別方法　　現(xiàn)代漢語(yǔ)語(yǔ)音的基礎(chǔ)是漢語(yǔ)拼音，由10

3、個(gè)元音和22個(gè)輔音組成，共計(jì)21個(gè)聲母和38個(gè)韻母[7]。漢語(yǔ)語(yǔ)音中的韻母都是由單元音音素(a,o,e,i,u,ü)組合而成，一個(gè)復(fù)韻音中包含了兩個(gè)或者兩個(gè)以上的單元音音素，在發(fā)音過(guò)程中聲道形狀會(huì)由前一個(gè)音素向后一個(gè)音素滑動(dòng)，當(dāng)?shù)竭_(dá)音素聲道位置后會(huì)有一個(gè)相對(duì)穩(wěn)定的過(guò)程。因此，本文將說(shuō)話人語(yǔ)音根據(jù)單元音音素分為六類，對(duì)分割出的語(yǔ)音進(jìn)行分類識(shí)別，語(yǔ)音分類識(shí)別模型如圖1所示。2.1語(yǔ)音的分割與特征提取　　由于本文僅對(duì)語(yǔ)音內(nèi)六個(gè)元音進(jìn)行分割，而且所有的元音都是濁音[7-9]，因此，語(yǔ)音的末點(diǎn)檢測(cè)不存在什么困難。對(duì)于元音的起點(diǎn)檢測(cè)也是困難不大，因?yàn)闈嵋糨^語(yǔ)音剛開(kāi)始一段

4、的輔音，能量一般都較大。采用短時(shí)能量和短時(shí)平均過(guò)零率的約束就能分割出所需要的語(yǔ)音，具體的約束條件如下：2.2語(yǔ)音的分類、識(shí)別與篩選　　對(duì)標(biāo)注的語(yǔ)音幀提取特征后，我們需要對(duì)選中的發(fā)音進(jìn)行篩選、分類和識(shí)別。標(biāo)注語(yǔ)音的特征都是以語(yǔ)音幀存在的，而文中要處理單個(gè)發(fā)音，因此必須判斷一個(gè)發(fā)音的起始和結(jié)束位置。在語(yǔ)音幀上，連續(xù)被標(biāo)注的一系列幀即可被看作一個(gè)發(fā)音，判別公式如下：3．基于語(yǔ)音分類技術(shù)的說(shuō)話人特征提取　　經(jīng)過(guò)前面的處理后，我們把所有選中語(yǔ)音幀中所屬類的特征作為一類特征集，這樣語(yǔ)音模板中有N類特征(文中為六類)，待測(cè)說(shuō)話人的特征也將被分為N類。對(duì)每類特征集，求其均值

5、中心作為說(shuō)話人識(shí)別的特征矢量。4．實(shí)驗(yàn)結(jié)果與比較分析　　本實(shí)驗(yàn)所用的語(yǔ)音數(shù)據(jù)均使用北京七九七公司生產(chǎn)的中音公司的MAYA44.V3專業(yè)數(shù)字音頻卡采集，其采樣頻率為96kHz，采用24Bit量化。錄音在普通實(shí)驗(yàn)室環(huán)境下進(jìn)行，所錄數(shù)據(jù)一部分用于訓(xùn)練，另一部分用于測(cè)試。語(yǔ)音信號(hào)先進(jìn)行歸一化，按照幀長(zhǎng)取1024點(diǎn)，幀交疊30%，1-0.99Z-1預(yù)加重，時(shí)域計(jì)算加矩形窗，頻域加漢寧窗。線性預(yù)測(cè)分析時(shí)采用20階預(yù)測(cè)器階數(shù)，然后根據(jù)公式(4)計(jì)算256個(gè)線性預(yù)測(cè)倒譜系數(shù)(LPCC)，形成語(yǔ)音特征矢量序列。實(shí)驗(yàn)中特征類別為六類。4.1域值選取　　語(yǔ)音分割時(shí)所需的短時(shí)能量和

6、短時(shí)過(guò)零率的約束域值的選定我們采用實(shí)驗(yàn)的方法。如表1中所示，能量和過(guò)零率域值取最大值的百分?jǐn)?shù)，是能量百分?jǐn)?shù)；是過(guò)零率的百分?jǐn)?shù)。R是正確判正率，E~1pmso1

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究

基于漢語(yǔ)元音分類的多維特征說(shuō)話人辨認(rèn)研究

相關(guān)文章

相關(guān)標(biāo)簽