資源描述:
《探索與文本無關(guān)的說話人特征提取及識(shí)別方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、蘭州理工大學(xué)碩士學(xué)位論文與文本無關(guān)的說話人特征提取及識(shí)別方法研究姓名:王貞申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):檢測技術(shù)與自動(dòng)化裝置指導(dǎo)教師:李戰(zhàn)明20060401碩士學(xué)位論文摘要說話人識(shí)別是根據(jù)人特有的語音信號(hào)來識(shí)別出說話人身份的一種生物認(rèn)證技術(shù),在說話人識(shí)別技術(shù)中,關(guān)鍵在于兩方面:其一,如何從數(shù)據(jù)量相當(dāng)大的原始語音信號(hào)中提取出反映說話人個(gè)性特征的參數(shù)。其二,設(shè)計(jì)出行之有效的分類器。本文針對(duì)說話人識(shí)別技術(shù)目前存在的技術(shù)難點(diǎn)進(jìn)行了深入的研究,研究內(nèi)容主要包括兩方面:對(duì)于特征參數(shù)的提取,目前使用最為流行的特征參數(shù)是基于人耳聽覺特性的MEL倒譜系數(shù)(MFcc)
2、,而MFcc是基于語音信號(hào)短時(shí)平穩(wěn)的假設(shè),在短時(shí)傅立葉變換的基礎(chǔ)上提取的。實(shí)際上語音信號(hào)是一種典型的非平穩(wěn)信號(hào),短時(shí)分析不會(huì)隨著時(shí)間的變化改變分辨率,而小波分析是一種信號(hào)的時(shí)間一尺度分析方法,它具有多分辨分析的特點(diǎn),因此本文在基于研究了MFCc的提取原理的基礎(chǔ)上,結(jié)合小波包對(duì)頻帶的多層次劃分,并根據(jù)人耳感知頻帶的特點(diǎn)即Mel頻率的分布,選擇相應(yīng)小波包分析后的結(jié)點(diǎn)頻帶,提取出一種基于小波包分析的新型特征參數(shù)(WPDC)。對(duì)于分類器的設(shè)計(jì),主要應(yīng)用人工神經(jīng)網(wǎng)絡(luò)技術(shù),建立了基于RBF網(wǎng)絡(luò)的說話人識(shí)別系統(tǒng)。針對(duì)系統(tǒng)性能隨時(shí)間下降的問題,本文在分析了已
3、有VQ法與人工神經(jīng)網(wǎng)絡(luò)法的基礎(chǔ)上,融合兩者的優(yōu)點(diǎn),提出了一種vO與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的說話人識(shí)別系統(tǒng),該系統(tǒng)能有效的解決隨著時(shí)間的變化,系統(tǒng)模型失配的問題。關(guān)鍵詞:說話人識(shí)別;特征參數(shù);MFcc;小波變換;分類器;RBF網(wǎng)絡(luò);LVO網(wǎng)絡(luò)與文本無關(guān)的說話人特征提取及識(shí)別方法研究AbstractAutomaticSpeakerRecognitionisabiometriccharacterizationprocessaimedatautomaticallyrecOgnizingwhoisspeakingbasedonuniqueinformati
4、oninherentinspeakersignalTherearetwokeystepsinthistechn0109yThefirstishowtoe×tractthefeatureparameterwhichcandiscriminatedifferentspeakerfromoriginalVoicesignalThesec。ndistodesignaclassinerwhichcouldyieldgoodperformanceInordertos01veproblemswithwhichthistechn0109yconfronts,
5、somedeepresearchhasbeenmade,itmainincludesthef0110wingtwoaspects:Asforfeatureextraction,themostpopularfeatureparameteristheMFCCatpresent,whichisextractedbasedonShon.TimeFourierTransform,assumingthevoicesignalisinvariantinshorttime.Infactvoicesignalisavariantsignaltypically,
6、butsho九一timeanaJysiscannotaltertime—frequencypropenyOntheotherhand,waVelettransformisasignalprocessbasedontime-scalerepresentation,inwhichthetimeandfrequencyresolutionbasisfunctionchangewithascalefactor.SobasedonstudytheMFCC。sextractiontheoryandwaveletpacketdecompositiontos
7、peechsignalprocessing,anewfeatureparameternamedwPDC(waveletpacketdecompositioncoe艏cient)isproposedInthisway,wedescribeaf}equencybandsdivisionofthesignalbycombingthenodesselectedfromthewaveIetpackettreetosecureamel—IikescalewithoutoverlappingInclassmerdesign,wehaVeconcentrat
8、edontheapplicationoftheneuralnetworktechniquestothetaskofspeakerrecognitionFirstly