資源描述:
《基于稀疏編碼的魯棒說話人識別方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、工學(xué)博士學(xué)位論文基于稀疏編碼的魯棒說話人識別方法研究哈爾濱理工大學(xué)2016年6月國內(nèi)圖書分類號:TP391.4工學(xué)博士學(xué)位論文基于稀疏編碼的魯棒說話人識別方法研究博士研究生:謝怡寧導(dǎo)師:黃金杰申請學(xué)位級別:工學(xué)博士學(xué)科、專業(yè):計算機應(yīng)用技術(shù)所在單位:計算機科學(xué)與技術(shù)學(xué)院答辯日期:2016年6月授予學(xué)位單位:哈爾濱理工大學(xué)ClassifiedIndex:TP391.4DissertationfortheDoctorDegreeinEngineeringRobustSpeakerRecognitionBasedonSparseCodingCandidate:XieYiningSup
2、ervisor:HuangJinjieAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerAppliedTechnologyDateofOralExamination:June,2016University:HarbinUniversityofScienceandTechnology濱理工大學(xué)博±學(xué)位論文原創(chuàng)性聲明.哈爾本人鄭重聲明:此處所提交的博±學(xué)位論文《基于稀疏編碼的魯棒說話人識別方法研究)〉,是本人在導(dǎo)師指導(dǎo)下,在哈爾濱理工大學(xué)攻讀博±學(xué)位期間獨立進(jìn)行研究工作所取得的成果。據(jù)本人所知,論
3、文中除己注明部分外不包含他人已發(fā)表或撰寫過的研究成果。對本文研究工作做出貢獻(xiàn)的個人和集體,均已在文中W明確方式注明。本聲明的法律結(jié)果將完全由本人承擔(dān)。曰期/作者簽名::月。曰M巧?wèi)簦ǎ牶艄枮I理工大學(xué)博±學(xué)位論文使用授權(quán)書《基于稀疏編碼的魯棒說話人識別方法研究》系本人在哈爾濱理工大學(xué)攻讀博±學(xué)位期間在導(dǎo)師指導(dǎo)下完成的博±學(xué)位論文。本論文的研究成果歸哈爾濱理工大學(xué)所有,本論文的研究內(nèi)容不得其他單位的名義發(fā)表。本人完全了解哈爾濱理工大學(xué)關(guān)于保存、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向有關(guān)部口提交論文和電子版本,允許論文被查閱和借閱。本人授權(quán)哈爾濱
4、理工大學(xué)可W采用影印。、縮印或其他復(fù)制手段保存論文,可公布論文的全部或部分內(nèi)容本學(xué)位論文屬于。保密[],在年解密后適用授權(quán)書不保密已。](請在til上相應(yīng)方框內(nèi)打々^^作者簽名:?個技円期:年月鬥!3一r。:円期導(dǎo)師簽名:如年^月円基于稀疏編碼的魯棒說話人識別方法研究摘要說話人識別又稱聲紋識別,是一種通過語音確定說話人身份的技術(shù)。由于使用語音具有采集方便、成本低廉等優(yōu)點,說話人識別被廣泛用于生物認(rèn)證、安全監(jiān)控、軍事偵查和金融交互等領(lǐng)域,具有廣闊的應(yīng)用前景。數(shù)十年來,世界各國的研究機構(gòu)和公司企業(yè)紛紛投入大量人力物力展開研究,有力地推動了說話人識別
5、技術(shù)的發(fā)展。目前說話人識別技術(shù)已逐步從實驗室走向應(yīng)用,而現(xiàn)實環(huán)境的復(fù)雜性對說話人識別提出了更高的要求,包括魯棒性、實時性、識別率和穩(wěn)定性等。這就要求在說話人識別關(guān)鍵環(huán)節(jié)上有所突破,尤其是語音活動檢測、特征提取,以及說話人模型的構(gòu)建等方面。目前的說話人識別技術(shù)在干凈語音環(huán)境下有理想的識別率,但在噪聲環(huán)境下,其性能會急劇降低,這阻礙了說話人識別技術(shù)走向現(xiàn)實應(yīng)用。本文針對說話人識別技術(shù)缺乏噪聲魯棒性的問題,將稀疏編碼技術(shù)用于說話人識別的各個環(huán)節(jié),包括語音活動檢測、語音特征提取和說話人建模等,提出了系統(tǒng)的解決方案,以提高說話人系統(tǒng)在噪聲環(huán)境下的識別率,主要工作包括以下幾個方面:首先,從
6、理論上分析了兩種稀疏編碼方法對噪聲的建模能力,為稀疏編碼的應(yīng)用奠定了基礎(chǔ)。稀疏編碼在對噪聲的建模方面有兩種方式:第一種用殘差對噪聲建模,噪聲的理論模型是高斯白噪聲,其內(nèi)在的假定在于語音在語音字典上稀疏,而噪聲在語音字典上不稀疏,白噪聲在任何字典上都表現(xiàn)得不稀疏,滿足了這一要求;第二種采用一個噪聲字典對噪聲建模,其內(nèi)在假定在于語音和噪聲在各自的字典上稀疏,且在自己的字典上比在對方的字典上更稀疏。本文從理論上分析了這兩種稀疏編碼方式重構(gòu)信號時誤差的上下限,然后用實驗驗證了理論分析的結(jié)論,表明當(dāng)噪聲不稀疏時,第一種方法和第二種方法的重構(gòu)誤差在理論上有相同的下限和不同的上限;當(dāng)噪聲也可
7、能稀疏時,第二種方法增加了一個字典對噪聲建模,融入了更多先驗知識,其重構(gòu)誤差上限要低于第一種方法。然后,針對語音活動檢測容易受到噪聲影響的問題,基于稀疏編碼構(gòu)建噪聲字典,提出了一種對噪聲魯棒的語音活動檢測方法。語音活動檢測是說話人識別的第一步,能減少算法處理的數(shù)據(jù)量,提高識別效率。目前的語音-I-活動檢測方法雖然也考慮了噪聲,但只能解決噪聲環(huán)境已知,且噪聲環(huán)境不變的情況。當(dāng)噪聲環(huán)境發(fā)生改變,或者噪聲不平穩(wěn),其性能將急劇降低。本文首先采用高斯混合模型識別噪聲類型;然后將經(jīng)過訓(xùn)練后的噪聲字典與語