資源描述:
《說話人識別中基于自動編碼機的信道補償方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文說話人識別中基于自動編碼機的信道補償方法研究AUTO-ENCODERBASEDCHANNELCOMPENSATIONINSPEAKERRECOGNITION于首杰哈爾濱工業(yè)大學(xué)2018年6月國內(nèi)圖書分類號:TP391.42學(xué)校代碼:10213國際圖書分類號:681.3密級:公開工學(xué)碩士學(xué)位論文說話人識別中基于自動編碼機的信道補償方法研究碩士研究生:于首杰導(dǎo)師:鄭鐵然副教授申請學(xué)位:工學(xué)碩士學(xué)科:計算機科學(xué)與技術(shù)所在單位:計算機科學(xué)與技術(shù)學(xué)院答辯日期:2018年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP391.42U.D.C:681.3Dissert
2、ationfortheMasterDegreeinEngineeringAUTO-ENCODERBASEDCHANNELCOMPENSATIONINSPEAKERRECOGNITIONCandidate:YUShoujieSupervisor:AssociateProf.ZHENGTie-ranAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:Jun
3、e,2018Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要說話人識別技術(shù)作為一種身份鑒別技術(shù)被廣泛研究和應(yīng)用,在眾多的說話人識別技術(shù)中基于i-vector特征的概率線性判別分析(ProbabilisticLinearDiscriminantAnalysis,PLDA)方法因為良好的識別效果而被廣泛關(guān)注。但由于i-vector特征中在提取過程中并沒有區(qū)分說話人信息和信道信息,因此要對i-vector進行信道補償,以減少信道信息的影響,而常用的信道補償方法是線性判別分析(LinearDiscriminantAnal
4、ysis,LDA)。LDA方法屬于線性映射方法,消除i-vector特征中信道信息的能力有限,因此本文提出了兩種基于傳統(tǒng)自動編碼機改進的新的信道補償方法,本文將第一個方法命名為類內(nèi)距離最小化編碼機(Within-classDistanceMinimizationAuto-Encoders,WCDM-AE),之后對WCDM-AE進一步改進得到了收縮類內(nèi)距離最小化編碼機(ContractiveWithin-classDistanceMinimizationAuto-Encoders,cWCDM-AE)。兩種方法都具有非線性映射能力,cWCDM-AE是在WCDM-AE的基礎(chǔ)上加入了兩個新的懲
5、罰項到損失函數(shù)中得到的,第一個懲罰項是為了達到最小化類內(nèi)距離的目的;第二個懲罰項是從CAE中改進而來,利用i-vector和大多數(shù)噪聲同樣屬于高斯分布的特性,來達到類內(nèi)距離最小化的目的。cWCDM-AE的信道補償效果比WCDM-AE更好。cWCDM-AE方法不僅具有傳統(tǒng)自動編碼機非線性映射的優(yōu)勢,并且通過改進損失函數(shù)可以利用類別信息。由于i-vector經(jīng)過cWCDM-AE重新編碼后屬于同一個說話人的特征會盡可能的靠近,之后再進行LDA方法,會使信道補償?shù)男Ч谩=?jīng)過實驗驗證,cWCDM-AE與LDA結(jié)合使用比單獨使用LDA方法的信道補償更好。本文使用Voxceleb數(shù)據(jù)集分別進行了
6、說話人確認和說話人辨認的對比實驗,雖然cWCDM-AE+LDA方法在說話人確認實驗方面識別性能不明顯,但在說話人辨認實驗中識別性能有很明顯的提升,相比于僅使用LDA方法,在識別準確率上達到了10%左右的提升。關(guān)鍵詞:說話人識別、信道補償、LDA、自動編碼機、cWCDM-AEIAbstractAbstractAsanidentificationtechnology,speakerrecognitiontechnologyhasbeenwidelystudiedandapplied.Inmanyspeakerrecognitiontechnologies,theProbabilisticL
7、inearDiscriminantAnalysis(PLDA)methodbasedoni-vectorfeaturesiswidelyconcerned,becauseofitsgoodrecognitionresult.However,thei-vectorfeaturedoesnotgreatlyd-istinguishbetweenspeakerinformationandchannelinformationduringthefeatu