資源描述:
《基于非重構(gòu)壓縮采樣的抗噪說話人識別技術研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、-''-考>—c,..單位代碼:10293密級:公開互^某Vb鷄々'讚編嗦苗違.禱#炎‘-^-.?y3如;也聲所嚴皆:V讀?。薮T女《健訟麵嶺圍輸誦‘17.,乂、'’心-產(chǎn)-.一..'.論文題目:基于非重構(gòu)壓縮采樣的抗噪說話人識別技術研究>r-rV..101:爸昔1300434^-%:—與^姓名于云楊震教授導師信號與信息處理學科專業(yè)研究方向語音信號處理與
2、語音通信工學碩古/申請學位類別V''—.'n論文提交二零一六年二月日期糸,..'‘八巧’,.:!梟>氣,t;1,‘9:綽対豁野.雞才-f三*-戶:.i'_y,*.■*-4?/,VResearchonanti-noisespeakerrecognitionbasedonnon-reconstructedcompressivesamplingThesisSubmittedtoNanjingUniversityofPostsandT
3、elecommunicationsfortheDegreeofMasterofEngineeringByYuYunSupervisor:Prof.YangZhenFeb2016南京郵電大學學位論文原創(chuàng)性聲明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加W標注和致謝的地方外,論文中不包含其他人己經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得南京郵電大學或其它教育機構(gòu)的學位或證書而使用過的材料。一與我同工作的同志對本研究所做的任何貢獻均己在論文中作
4、了明確的說明并表示了謝意。一切相關的法律責任本人學位論文及涉及相關資料若有不實,愿意承擔。研究生簽名:尋方日期:南京郵電大學學位論文使用授權(quán)聲明本人授權(quán)南京郵電大學可保留并向國家有關部口或機構(gòu)送交論文的復印件和電子文檔;;允許論文被查閱和借閱;可W將學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進行檢索可采用影印、縮印或掃描等復制手段保存、匯編本學位論文。本文電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。論文的公布(包括刊登)授權(quán)南京郵電大學研究生院辦理。涉密學位論文在解密后適用本授權(quán)書
5、。研究生簽名:導師簽名:日期:年來_摘要隨著計算機的產(chǎn)生和互聯(lián)網(wǎng)技術的發(fā)展,說話人識別作為生物認證的一種,憑借其獨一無二的優(yōu)勢在人機交互領域一直備受關注。說話人識別技術已經(jīng)從實驗室轉(zhuǎn)向了實際應用中,同時用戶對其準確性、友好性和魯棒性的要求越來越高。在實際應用環(huán)境中,說話人識別性能受到諸多因素影響,其中最主要的因素是環(huán)境噪聲的存在。環(huán)境噪聲污染了采集的語音信號,導致訓練數(shù)據(jù)集和測試數(shù)據(jù)集之間的匹配度降低,引起識別性能下降。另一方面,隨著云計算、大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,人們獲得的信息量不斷增加,為了減輕傳輸
6、和處理數(shù)據(jù)的負擔,信號的壓縮感知技術應運而生。奈奎斯特采樣下的說話人識別,當為了確保高的識別率而采集較長時間說話人語音時,采樣數(shù)據(jù)量特別大,其中有許多冗余造成了采樣資源的浪費,壓縮感知理論可以很好地解決此問題。本文將壓縮感知理論應用到噪聲環(huán)境下的說話人識別系統(tǒng)中,直接對觀測矩陣壓縮后的觀測序列進行特征提取,針對基于壓縮感知的魯棒性說話人識別進行研究,論文工作是導師國家自然科學基金工作的一部分,本文主要工作和創(chuàng)新如下:(1)研究壓縮感知壓縮比和語音分幀長度對識別系統(tǒng)性能影響。對行階梯矩陣投影下的觀測序列展開研
7、究,研究壓縮比和幀長對識別率的影響。發(fā)現(xiàn)在壓縮比為1:2時,識別性能與傳統(tǒng)方法相當;幀長過短或過長時,說話人識別率有明顯的下降趨勢,一般所取的幀長在20ms-30ms左右。(2)研究在有噪環(huán)境下語音壓縮感知識別系統(tǒng)的特征參數(shù)和消噪技術。首先提出了基于譜減法的特征參數(shù)CS-SSMFCC,提高了系統(tǒng)的魯棒性。將時頻分析特性較好的小波閾值去噪應用到系統(tǒng)前端,發(fā)現(xiàn)小波軟閾值去噪效果比譜減法更好,在15dB信噪比下,識別率可以達到90%以上。(3)語音信號是由激勵源和聲道函數(shù)共同作用的結(jié)果,基于行階梯矩陣提取另一種關
8、鍵特征參數(shù)—基音頻率。為了提高識別率,提出一種將基音信息和Mel倒譜特征分數(shù)層線性加權(quán)融合方法,根據(jù)加權(quán)系數(shù)是否與每條測試語音有關,采用固定加權(quán)和動態(tài)加權(quán)兩種融合方法,實驗結(jié)果表明動態(tài)加權(quán)融合識別效果更好。在此基礎上,將小波軟閾值去噪增加到系統(tǒng)前端,設計一種新的抗噪融合識別系統(tǒng),增強了系統(tǒng)的魯棒性。關鍵詞:說話人識別,魯棒性,壓縮感知,語音增強,加權(quán)融合IAbstractWiththedevelopmentofc