資源描述:
《基于韻律特征的SVM說(shuō)話人識(shí)別》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、摘要摘要語(yǔ)音信號(hào)是用于個(gè)人身份確認(rèn)的一種有效的生物特征,與文本無(wú)關(guān)的說(shuō)話人識(shí)別的研究也是語(yǔ)音信號(hào)處理的一個(gè)重要的研究方向,其研究具有重要的理論意義和廣泛的應(yīng)用前景。為了考察最新的相關(guān)研發(fā)進(jìn)展,并提供統(tǒng)一的衡量標(biāo)準(zhǔn),美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)于1996年起開(kāi)始主持說(shuō)話人識(shí)別評(píng)測(cè)。NIST說(shuō)話人評(píng)測(cè)代表了說(shuō)話人識(shí)別領(lǐng)域的最高水準(zhǔn),NIST設(shè)立了多項(xiàng)評(píng)測(cè)任務(wù),探索和嘗試各種語(yǔ)音條件下的研究方法,并為各個(gè)項(xiàng)目指定統(tǒng)一的電話和廣播語(yǔ)音(多環(huán)境、多通道、大規(guī)模說(shuō)話人)、測(cè)試基準(zhǔn)、評(píng)測(cè)規(guī)則和標(biāo)準(zhǔn)。其中一個(gè)任務(wù)是采用長(zhǎng)語(yǔ)音進(jìn)行說(shuō)話人識(shí)別,是
2、為了探索用于與文本無(wú)關(guān)的說(shuō)話人識(shí)別的語(yǔ)音信號(hào)高層次信息而設(shè)置的。除了短時(shí)倒譜參數(shù),語(yǔ)音中的高層次信息也是一種有效的說(shuō)話人特征參數(shù),但其通常與文本內(nèi)容有關(guān),因此研究從信號(hào)中提取可用于與文本無(wú)關(guān)說(shuō)話人識(shí)別的語(yǔ)音高層次特征信息就成了目前研究的焦點(diǎn)。本文對(duì)韻律的提取方法及其與區(qū)辨模型結(jié)合運(yùn)用于與文本無(wú)關(guān)的說(shuō)話人識(shí)別進(jìn)行了探討。從與文本無(wú)關(guān)的說(shuō)話人識(shí)別的特點(diǎn)出發(fā),本文先講述概率統(tǒng)計(jì)模型,從文本相關(guān)的語(yǔ)音韻律(語(yǔ)音特征隨時(shí)間變化的軌跡)中提取的特征信息,進(jìn)行數(shù)據(jù)壓縮、聚類,再利用支持向量機(jī)SVM進(jìn)行區(qū)分。文章提出了一種基于小波分析從韻律中提取超
3、音段韻律信息的方法,分別從聲道的MFCC軌跡和基頻軌跡,時(shí)域能量軌跡中進(jìn)行超音段韻律特征的提取。由MFCC各維參數(shù)的近似不相關(guān)和聲道緩變的特點(diǎn),MFCC軌跡的韻律特征只以概貌系數(shù)來(lái)刻畫,提取的PMFCC作為主參數(shù),在參數(shù)級(jí)和由基頻F0軌跡的六維韻律特征參數(shù)PF0、由時(shí)域能量軌跡的六維韻律特征參數(shù)PE,組成更加有效的PMFCCFE參數(shù),進(jìn)而利用支持向量機(jī)SVM模型進(jìn)行區(qū)分。在NIST數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,與傳統(tǒng)的短時(shí)MFCC的GMM-UBM系統(tǒng)相比,超音段韻律特征PMFCCFE的GMM-SVM系統(tǒng)的EER相對(duì)下降了57.9%,MinDC
4、F相對(duì)下降了41.4%。顯著提高了說(shuō)話人識(shí)別的性能。關(guān)鍵字:韻律特征;GMM超矢量;SVM;文本無(wú)關(guān)說(shuō)話人識(shí)別IAbstractAbstractSpeechsignalaseffectivebiologicalfeature,isparticularlyusefulforidentification,andtext-independentspeakerrecognitionisoneoftheprimaryresearchfieldsofspeechsignalprocessing,andnotonlyofgreattheoreti
5、calsignificance,butalsohasawidevarietyofapplications.TheNationalInstituteofStandardsandTechnology(NIST)hascoordinatedSpeakerRecognitionEvaluationssince1996toinvestigateandmeasurethelatestapproaches.Theevaluationsrepresentthestate-of-the-artachievementsofspeechrecogniti
6、on.NISTsetsupseveraltaskstoexaminespeakerrecognitionperformanceunderdifferentcircumstances.NISTofferstotheparticipantstelephoneandbroadcastspeechdatarangingfrommultiplechannelstovariousenvironments,theevaluationspecifications,andsameevaluationcriterion.Onetaskofferslon
7、g-durationspeechfromspeakers,aimingtomakefulluseoftext-independenthighlevelinformationforrecognizingspeakers.Inadditiontoshort-termspectralfeaturessuchasMFCC,highlevelinformationcanalsoserveaseffectivefeatureforspeakerrecognition,butitusuallyassociatedwithdependenttext
8、.Thesolutiontoexplorethehighlevelfeaturefortext-independentspeakerrecognitionbecomesafocus.Thethesisillustratestheeff