資源描述:
《基于fmfcc和hmm的說話人識別》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第27卷第5期計(jì)算機(jī)仿真2010年5月文章編號:1006—9348(2010)05-0352—03基于FMFCC和HMM的說話人識別張永亮,張先庭,魯宇明(1.南昌航空大學(xué)電子信息工程學(xué)院,江西南昌330063;2.南京航空航天大學(xué)自動化學(xué)院,江蘇南京210016)摘要:美爾頻率倒譜系數(shù)(MFCC)是說話人識別中常用的特征參數(shù),而語音信號是非平穩(wěn)信號,MFCC并不能很好的反映語音的時(shí)頻特性。針對這一缺陷,為了提高說話人的識別率,結(jié)合新的時(shí)頻分析工具分?jǐn)?shù)傅立葉變換(FRF1.)。將MFCC推廣到分?jǐn)?shù)形式,得到分?jǐn)?shù)美爾頻率倒譜系數(shù)(
2、FMFCC),用以表征語音信號的特征;并利用可分性測度驗(yàn)證了特征參數(shù)的有效性;通過建立20個(gè)不同說話人的FMFCC特征庫,采用隱馬爾可夫模型(HMM)對說話人進(jìn)行仿真識別。仿真結(jié)果表明,在合適的變換階次下,說話人的平均識別率可達(dá)93%以上。關(guān)鍵詞:分?jǐn)?shù)傅立葉變換;頻率倒譜系數(shù);隱馬爾可夫模型中闊分類號:TIY391.4文獻(xiàn)標(biāo)識碼:BSpeakerRecognitionBasedonFM[Ii’CCandHMMZHANGYong—liang,ZHANGXian—ting,LUYu—ming(1.CollegeofElectroni
3、csandInformationEngineering,NanChangHangKongUniversity,NanehangJiangxi330063,China;2.CollegeofAutomationEngineering,NanJingUniversityofAeronauticsandAstronautics,NanjingJiangsu210016,China)ABSTRACT:Melfrequencycepstralcoeficient(MFCC)isafrequently—usedcharacteristici
4、nspeakerrecogniton.Inevidence,speecharenon—stationarysignals,thetime—frequencycharacteristicofspeechisnotclearlyexpressedthr0ughMFCC.Thus,inthecalculationofMFCCparameter,fractionalFouriertransform(FRn’)isadoptedtore—placediscreteFouriertransform.ThenfractionalMelfreq
5、uencycepstralcoeficient(FMFCC)isacquired,andtheeffectivityoftheparameterisverified.Finally,theHiddenMarkovModel(HMM)of20diferentspeakersisestab—lished,andspeakeridentificationisperformed.Thesimulationshowsthatindifferenttransformorders,theaverageofrightspeakerrecogni
6、tionrateisupto93%.KEYWORDS:FractionalFouriertransform;Frequencycepstralcoeficient;HiddenMarkovmodel1引言仿,它具有較好的區(qū)分能力,并且計(jì)算簡便,是目前使用最為說話人識別是一項(xiàng)根據(jù)語音波形中反映說話人生理、心廣泛的語音特征之一。但是,MFCC特征的獲取是基于傳統(tǒng)理和行為特征的語音參數(shù),自動識別說話人身份的生物認(rèn)證的傅立葉變換(FT)。FI"最適宜處理的是頻率不隨時(shí)間變化技術(shù)”J。與其它生物識別技術(shù)(諸如人臉、指紋、血液、的平穩(wěn)信號,
7、而語音信號是一種非平穩(wěn)的時(shí)變信號,因此,標(biāo)DNA、虹膜、視網(wǎng)膜等)相比,說話人識別所采用的語音信號準(zhǔn)Fr并不能完全刻畫語音信號的特征。FRFY是傳統(tǒng)Fr在具有不會遺失、無需記憶和使用方便等優(yōu)點(diǎn),在生物識別技分?jǐn)?shù)階次上的推廣,其變換譜包含空域和頻域的雙域信息,術(shù)領(lǐng)域中,說話人識別技術(shù)以其獨(dú)特的方便性和經(jīng)濟(jì)性等優(yōu)作為一種有效的時(shí)頻分析工具,目前已經(jīng)被廣泛地應(yīng)用于信勢,日益成為一種重要的安全驗(yàn)證方式。個(gè)人特征的提取和息安全、模式識別、光學(xué)系統(tǒng)分析J、量子理論等領(lǐng)識別模型的建立是說話人識別的兩個(gè)關(guān)鍵技術(shù),其中尤以個(gè)域。本文利用FReT的
8、時(shí)頻特性,在計(jì)算MFCC特征參數(shù)時(shí),人特征的提取最為關(guān)鍵,特征提取是說話人識別算法的重用FRFY替換Fr,將MFCC特征參數(shù)推廣到分?jǐn)?shù)形式,得到點(diǎn),也是難點(diǎn)。在說話人識別中,常用的特征參數(shù)有基音周分?jǐn)?shù)美爾頻率倒譜系數(shù)(FMFCC),通過數(shù)值實(shí)驗(yàn)驗(yàn)證了其有期、共振