資源描述:
《基于mfcc等組合特征的說(shuō)話人識(shí)別模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、第31卷第6期三峽大學(xué)學(xué)報(bào)(自然科學(xué)版)Vol.31No.62009年12月JofChinaThreeGorgesUniv.(NaturalSciences)Dec.2009基于MFCC等組合特征的說(shuō)話人識(shí)別模型11,21朱建偉孫水發(fā)劉曉麗(1.三峽大學(xué)電氣信息學(xué)院,湖北宜昌443002;2.三峽大學(xué)智能視覺(jué)與圖像信息研究所,湖北宜昌443002)摘要:為了有效提取語(yǔ)音特征,提高說(shuō)話人識(shí)別的準(zhǔn)確率,系統(tǒng)采用基于有限狀態(tài)機(jī)的端點(diǎn)檢測(cè)算法對(duì)原始語(yǔ)音做VAD處理,提出了新的特征組合參數(shù):基于人的聽覺(jué)特性的MFCC參數(shù)、基于發(fā)音生理特征的基音輪廓特征以及衍生的基音周期一階差
2、分、基音周期變化率,并將它們作為說(shuō)話人識(shí)別系統(tǒng)的特征參數(shù),建立了基于VQ的識(shí)別模型.實(shí)驗(yàn)表明:本文系統(tǒng)使用VAD,使系統(tǒng)的識(shí)別率提高了5%~8%,較單獨(dú)使用MFCC參數(shù)的說(shuō)話人識(shí)別系統(tǒng)的識(shí)別率提高了2%~3%.關(guān)鍵詞:說(shuō)話人識(shí)別;Mel倒譜系數(shù);基音輪廓特征;語(yǔ)音活性檢測(cè)中圖分類號(hào):TN912文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16722948X(2009)0620077203SpeakerRecognitionModelBasedonMFCCandCombinedFeatures11,21ZhuJianweiSunShuifaLiuXiaoli(1.CollegeofElec
3、tricalEngineering&InformationScience,ChinaThreeGorgesUniv.,Yichang443002,China;2.InstituteofIntelligentVisionandImageInformation,ChinaThreeGorgesUniv.,Yichang443002,China)AbstractInordertoeffectivelyextractthespeechfeaturesandimprovethespeakerrecognitionaccuracy,aVADalgorithmbasedonthe
4、finitestatemachine(FSM)isappliedontheoriginalvoicefirstly.Thefollowingfourfeaturesareselected:theMelfrequencycepstralcoefficient(MFCC)parametersbasedonthecharacter2isticsofhumanhearing,thepitchcontourbasedonthephysiologicalcharacteristicsofpronunciationfeatures,thepitchfirst2orderdiffe
5、renceandthepitchchangedrate.Vectorquantization(VQ)basedspeakerrecogni2tionmodelisestablished.Theexperimentalresultsshowthattherecognitionrateoftheproposedsystemisimproved2%-3%thanthespeakerrecognitionsystemusingtheMFCCparametersonly,and5%-8%thanthesystemwithoutusingtheVAD.Keywordsspeak
6、errecognition;MFCC;pitchcontourfeatures;VAD說(shuō)話人識(shí)別可以分為說(shuō)話人辨認(rèn)(SpeakerIden2特征提取和模式匹配(模式識(shí)別)是說(shuō)話人識(shí)別tification)和說(shuō)話人確認(rèn)(SpeakerVerification).前者的兩個(gè)關(guān)鍵問(wèn)題.目前常用的特征參數(shù)有線性預(yù)測(cè)倒是把待識(shí)別的一段語(yǔ)音判定為屬于若干個(gè)參考說(shuō)話譜系數(shù)(LinearPredictiveCepstrumCoefficient,人中的哪一個(gè)所說(shuō)的,是一個(gè)“多選一”問(wèn)題.而后者LPCC)、Mel頻率倒譜系數(shù)(Mel2FrequencyCeps2則是判定一段語(yǔ)音是否是
7、所聲明的某個(gè)參考人所說(shuō)trumCoefficient,MFCC)和感知線性預(yù)測(cè)(Percep2[2]的,這只有兩種選擇:肯定(接受)或者否定(拒絕),是tualLinearPredictive,PLP)參數(shù)等.MFCC比[1]一個(gè)“二選一”的問(wèn)題.論文所要研究的是與文本無(wú)LPCC和PLP具有更優(yōu)越的識(shí)別性能,是目前應(yīng)用[324]關(guān)的說(shuō)話人辨認(rèn)系統(tǒng).最廣的特征參數(shù).模式匹配方法主要有基于模板收稿日期:2009206223基金項(xiàng)目:湖北省教育廳科學(xué)技術(shù)研究計(jì)劃重大項(xiàng)目“基于真實(shí)感知的多方虛擬工作環(huán)境關(guān)鍵技術(shù)研究”(Z20081301)通訊作者:孫水發(fā)(1977-),