基于mfcc等組合特征的說(shuō)話人識(shí)別模型

ID：33489900

大?。?01.95 KB

頁(yè)數(shù)：4頁(yè)

時(shí)間：2019-02-26

資源描述：

《基于mfcc等組合特征的說(shuō)話人識(shí)別模型》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、第31卷第6期三峽大學(xué)學(xué)報(bào)(自然科學(xué)版)Vol.31No.62009年12月JofChinaThreeGorgesUniv.(NaturalSciences)Dec.2009基于MFCC等組合特征的說(shuō)話人識(shí)別模型11,21朱建偉孫水發(fā)劉曉麗(1.三峽大學(xué)電氣信息學(xué)院,湖北宜昌443002;2.三峽大學(xué)智能視覺(jué)與圖像信息研究所,湖北宜昌443002)摘要:為了有效提取語(yǔ)音特征,提高說(shuō)話人識(shí)別的準(zhǔn)確率,系統(tǒng)采用基于有限狀態(tài)機(jī)的端點(diǎn)檢測(cè)算法對(duì)原始語(yǔ)音做VAD處理,提出了新的特征組合參數(shù):基于人的聽覺(jué)特性的MFCC參數(shù)、基于發(fā)音生理特征的基音輪廓特征以及衍生的基音周期一階差

2、分、基音周期變化率,并將它們作為說(shuō)話人識(shí)別系統(tǒng)的特征參數(shù),建立了基于VQ的識(shí)別模型.實(shí)驗(yàn)表明:本文系統(tǒng)使用VAD,使系統(tǒng)的識(shí)別率提高了5%～8%,較單獨(dú)使用MFCC參數(shù)的說(shuō)話人識(shí)別系統(tǒng)的識(shí)別率提高了2%～3%.關(guān)鍵詞:說(shuō)話人識(shí)別;Mel倒譜系數(shù);基音輪廓特征;語(yǔ)音活性檢測(cè)中圖分類號(hào):TN912文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16722948X(2009)0620077203SpeakerRecognitionModelBasedonMFCCandCombinedFeatures11,21ZhuJianweiSunShuifaLiuXiaoli(1.CollegeofElec

3、tricalEngineering&InformationScience,ChinaThreeGorgesUniv.,Yichang443002,China;2.InstituteofIntelligentVisionandImageInformation,ChinaThreeGorgesUniv.,Yichang443002,China)AbstractInordertoeffectivelyextractthespeechfeaturesandimprovethespeakerrecognitionaccuracy,aVADalgorithmbasedonthe

4、finitestatemachine(FSM)isappliedontheoriginalvoicefirstly.Thefollowingfourfeaturesareselected:theMelfrequencycepstralcoefficient(MFCC)parametersbasedonthecharacter2isticsofhumanhearing,thepitchcontourbasedonthephysiologicalcharacteristicsofpronunciationfeatures,thepitchfirst2orderdiffe

5、renceandthepitchchangedrate.Vectorquantization(VQ)basedspeakerrecogni2tionmodelisestablished.Theexperimentalresultsshowthattherecognitionrateoftheproposedsystemisimproved2%-3%thanthespeakerrecognitionsystemusingtheMFCCparametersonly,and5%-8%thanthesystemwithoutusingtheVAD.Keywordsspeak

6、errecognition;MFCC;pitchcontourfeatures;VAD說(shuō)話人識(shí)別可以分為說(shuō)話人辨認(rèn)(SpeakerIden2特征提取和模式匹配(模式識(shí)別)是說(shuō)話人識(shí)別tification)和說(shuō)話人確認(rèn)(SpeakerVerification).前者的兩個(gè)關(guān)鍵問(wèn)題.目前常用的特征參數(shù)有線性預(yù)測(cè)倒是把待識(shí)別的一段語(yǔ)音判定為屬于若干個(gè)參考說(shuō)話譜系數(shù)(LinearPredictiveCepstrumCoefficient,人中的哪一個(gè)所說(shuō)的,是一個(gè)“多選一”問(wèn)題.而后者LPCC)、Mel頻率倒譜系數(shù)(Mel2FrequencyCeps2則是判定一段語(yǔ)音是否是

7、所聲明的某個(gè)參考人所說(shuō)trumCoefficient,MFCC)和感知線性預(yù)測(cè)(Percep2[2]的,這只有兩種選擇:肯定(接受)或者否定(拒絕),是tualLinearPredictive,PLP)參數(shù)等.MFCC比[1]一個(gè)“二選一”的問(wèn)題.論文所要研究的是與文本無(wú)LPCC和PLP具有更優(yōu)越的識(shí)別性能,是目前應(yīng)用[324]關(guān)的說(shuō)話人辨認(rèn)系統(tǒng).最廣的特征參數(shù).模式匹配方法主要有基于模板收稿日期:2009206223基金項(xiàng)目:湖北省教育廳科學(xué)技術(shù)研究計(jì)劃重大項(xiàng)目“基于真實(shí)感知的多方虛擬工作環(huán)境關(guān)鍵技術(shù)研究”(Z20081301)通訊作者:孫水發(fā)(1977-),

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于mfcc等組合特征的說(shuō)話人識(shí)別模型

基于mfcc等組合特征的說(shuō)話人識(shí)別模型

相關(guān)文章

相關(guān)標(biāo)簽