資源描述:
《說話人識別的自適應(yīng)算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、武漢理工大學(xué)碩士學(xué)位論文摘要本論文主要內(nèi)容是基于矢量量化(VQ)和隱馬爾可夫模型(HMM)的說話人識別算法的研究和改進。說話人識別是根據(jù)人的聲音來識別人的一種生物認證技術(shù),具有非常好的應(yīng)用前景。而矢量量化和隱馬爾可夫模型相結(jié)合則是在說話人識別領(lǐng)域中應(yīng)用最廣泛,效果最好的手段之一。作者對說話人識別的各個環(huán)節(jié)的相關(guān)知識進行了廣泛學(xué)習(xí),其中包括語音信號預(yù)處理、獲取特征量以及基于不同模型的識別方法。在研究過程中,重點對識別方法,即識別算法方面做了下列三個方面的工作:(1)基于VQ的說話人識別研究:適合于特定人識別,但該方法對于由說話人差別引起的語音特征的
2、變化卻無能為力。(2)基于}m蹦的說話人識別研究:適合于非特定人識別,因為它作為統(tǒng)計模型能夠吸收由不同說話人引起的語音特征的變化。(3)基于模糊矢量量化以及隱馬爾可夫模型(FVQ/HMM)的說話人識別研究:FVQ/HMM作為HMM的特殊形式,其模型參數(shù)數(shù)量較傳統(tǒng)HMM少,模型學(xué)習(xí)對訓(xùn)練數(shù)據(jù)量要求不高;具有學(xué)習(xí)收斂速度快,適合于實時自適應(yīng)學(xué)習(xí);識別速度快,適合于實時大詞匯量連續(xù)語音識別等特點。另外,它和傳統(tǒng)分段VQ識別方法相比,F(xiàn)VQ/H/lN可以得到最佳的分段效果,且通過模糊c一均值(FCM)聚類分析減少了碼本的量化誤差。關(guān)鍵詞:說話人識別,自適
3、應(yīng),矢量量化,隱馬爾可夫模型,模糊矢量量化武漢理工大學(xué)碩士學(xué)位論文AbstractThesubstanceofthismagisterialthesisistheresearchandimprovementofspeakerrecognitionwhichisbasedontheVQ(VectorQuantization)andHMM(HiddenMarkovModel).Withcheerfulprospect,speakerrecognitionisabiometricsthatrecognizespeopleviatheirvoice,an
4、dthecombinationofVQandHMMisoneofthebestandmostprevailingmethodinthefieldofspeakerrecognition.Theauthorwidelystudiestheknowledgeofeverypartofspeakerrecognitionwhichinvolvesvoicesignalpreprocessing,charactervectorextractingandrecognitionmethodbasedondifierentmodel.Duringthiswor
5、k,themainbodyistherecognitionmethod,namely,recognitionalgorithm.Threeaspectsofitareasfollows:(1)StudyofspeakerrecognitionbasedonVQ:ItisapplicabletoSD(SpeakDependent)recognitionbutunabletodealwiththevarietyinvoicecharacterwhichresultfromdifferentspeaker.(2)Studyofspeakerrecogn
6、itionbasedonHMM:Asakindofstatisticalmodel,itisapplicabletoSl(SpeakIndependent)recognitionbecauseitincludesthevarietyinvoicecharacterwhichresultfromdifferentspeaker.(3)StudyofspeakerrecognitionbasedonFVO(FuzzyVQ)/HMM:ItisthespecialformofHMM.ComparedwithoriginalHMM,ithaslesspar
7、ameterstoreducetrainingdataforlearning,higherconstringencyspeedoflearningtobeapplicabletoreal—timeself-adaptinglearningandhigherrecognitionspeedtobeapplicabletoreal.timecontinuousvoicerecognitionwithlargevocabular弘ComparedwithoriginaldivisionVQ,ithasbeaereffectofdivisionandle
8、ssquantizationerrorofcodebookbyFCM(FuzzyC—Means)clusteringanalysis.K