資源描述:
《基于發(fā)音動(dòng)作參數(shù)的說(shuō)話人確認(rèn)技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、上海師范大學(xué)碩士學(xué)位論文摘要摘要聲紋識(shí)別是通過(guò)語(yǔ)音信號(hào)所蘊(yùn)含的生理特性和個(gè)性行為特性對(duì)目標(biāo)說(shuō)話人身份進(jìn)行識(shí)別的過(guò)程。與其他安全認(rèn)證方式相比,聲紋識(shí)別技術(shù)具有遠(yuǎn)程身份認(rèn)證、認(rèn)證方便、認(rèn)證成本低廉的特質(zhì)。由于這些特質(zhì)聲紋識(shí)別技術(shù)被廣泛應(yīng)用于商業(yè)領(lǐng)域。本文主要研究了發(fā)音動(dòng)作參數(shù)的基于短時(shí)文本相關(guān)的說(shuō)話人確認(rèn)技術(shù)。發(fā)音動(dòng)作特征是從語(yǔ)音合成領(lǐng)域借簽而來(lái)的,因?yàn)榘l(fā)音動(dòng)作參數(shù)與其他特征參數(shù)相比,發(fā)音動(dòng)作參數(shù)具有的不受信道影響和環(huán)境影響的強(qiáng)魯棒性。本文首先介紹了發(fā)音動(dòng)作特征的提取過(guò)程、規(guī)整過(guò)程,同時(shí)也介紹了如梅爾倒譜系數(shù)、線
2、性預(yù)測(cè)分析等傳統(tǒng)的語(yǔ)音信號(hào)特征提取技術(shù)。并對(duì)發(fā)音動(dòng)作特征和梅爾倒譜系數(shù)進(jìn)行了同一個(gè)說(shuō)話人的信號(hào)特征的差異的研究,對(duì)信號(hào)特征進(jìn)行比較,從而得出發(fā)音動(dòng)作參數(shù)優(yōu)于梅爾倒譜系數(shù)的結(jié)論。在文本相關(guān)的聲紋識(shí)別研究中,語(yǔ)音信號(hào),語(yǔ)音特征提取和算法是影響聲紋識(shí)別的關(guān)鍵因素。本文新建了一個(gè)數(shù)據(jù)庫(kù),基于該數(shù)據(jù)庫(kù),選取了不同維度的梅爾倒譜系數(shù),使用傳統(tǒng)的建模方法如高斯混合模型-通用背景模型、動(dòng)態(tài)時(shí)間規(guī)整,對(duì)這些特征參數(shù)進(jìn)行研究。發(fā)現(xiàn)在解決短時(shí)文本相關(guān)問(wèn)題時(shí),動(dòng)態(tài)時(shí)間規(guī)整算法明顯優(yōu)于高斯混合模型-通用背景模型算法。發(fā)音動(dòng)作參數(shù)由于其
3、不受信道影響、環(huán)境影響、身體狀況和情緒影響的特質(zhì),因而能夠反映說(shuō)話人身份信息。為了選擇最有識(shí)別效果的發(fā)音動(dòng)作參數(shù),分別選取不同參考點(diǎn)下不同發(fā)音器官的發(fā)音動(dòng)作參數(shù),采用動(dòng)態(tài)時(shí)間規(guī)整模型對(duì)話者身份進(jìn)行驗(yàn)證。發(fā)現(xiàn)以上唇為參考點(diǎn)的發(fā)音動(dòng)作參數(shù)識(shí)別效果最優(yōu)。進(jìn)而分別使用特征融合、系統(tǒng)融合技術(shù),進(jìn)一步降低聲紋識(shí)別的等錯(cuò)誤率。最后,本文對(duì)話者確認(rèn)模型的訓(xùn)練部分進(jìn)行改動(dòng),采用高斯混合模型-支持向量機(jī)話者確認(rèn)技術(shù),設(shè)計(jì)了發(fā)音動(dòng)作參數(shù)基于高斯混合模型-支持向量機(jī)系統(tǒng)說(shuō)話人確認(rèn)框架。實(shí)驗(yàn)結(jié)果與發(fā)音動(dòng)作參數(shù)基于動(dòng)態(tài)時(shí)間規(guī)整算法的話者
4、確認(rèn)系統(tǒng)結(jié)果一致,而且高斯混合模型-支持向量機(jī)系統(tǒng)的識(shí)別結(jié)果優(yōu)于動(dòng)態(tài)時(shí)間規(guī)整系統(tǒng)。關(guān)鍵詞:聲紋識(shí)別;發(fā)音動(dòng)作參數(shù);梅爾倒譜系數(shù);文本相關(guān);高斯混合模型-通用背景模型;動(dòng)態(tài)時(shí)間規(guī)整;高斯混合模型-支持向量機(jī)IAbstractShanghaiNormalUniversityMasterofScienceAbstractVoiceprintrecognitionisarecognitionprocessfortargetspeakerbasedonphysiologicalandbehavioralcharacte
5、risticsandfeaturesofspeechsignal.Comparedwithothersecurityauthenticationmethods,voiceprintrecognitiontechnologyhastheadvantagesofsuitableforremotespeakeridentity,convenientandlowcost,becauseofthatvoiceprintrecognitioniswidelyusedincommercialapplications.Int
6、hispaper,wemainlystudyarticulatorymovementfeatures(AMFs)forshort-durationtext-dependentspeakerverificationtechnology.AMFsareborrowedfromspeechrecognitionarea,whencomparedotheracousticfeaturecoefficientswithAMFs,AMFsarenotinfluencedbychannelandenvironmentalb
7、ackgroundnoises.Therefore,theAMFscanbemorenoise-robust.Firstly,weintroducetheextractionprocessandregularizationprocessofAMFs,andalsointroducetraditionalacousticfeatureextractiontechnology,suchasMel-FrequencyCepstralCoefficients(MFCC),LinearPredictiveCodingC
8、epstralCoefficients(LPCC).westudythedifferenceofacousticsignalbetweenAMFsandMFCC,undertheconditionsofsamedimensionandsamespeaker.Whencomparingtheamplitudevalues,wefindthatAMFsaresuperiortoMFCC.Speechsi