資源描述:
《基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、Seediscussions,stats,andauthorprofilesforthispublicationat:https://www.researchgate.net/publication/267470442Speakeridentificationusingareferencespeakermodelbasedatwo-layerstructureArticleinQinghuaDaxueXuebao/JournalofTsinghuaUniversity·September2011CITATIONSREADS0155authors,including:GangW
2、angFangZhengAIOFMTsinghuaUniversity92PUBLICATIONS652CITATIONS177PUBLICATIONS841CITATIONSSEEPROFILESEEPROFILEAllcontentfollowingthispagewasuploadedbyFangZhengon11November2014.Theuserhasrequestedenhancementofthedownloadedfile.ISSN1000-0054清華大學學報(自然科學版)2011年第51卷第9期22/33CN11-2223/NJTsinghuaUniv
3、(Sci&Tech),2011,Vol.51,No.91261-1266基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認王剛,鄔曉鈞,鄭方,王琳琳,張陳昊(1.清華信息科學技術(shù)國家實驗室技術(shù)創(chuàng)新與開發(fā)部語音和語言技術(shù)中心,北京100084;2.清華大學計算機科學與技術(shù)系,北京100084)摘要:為了提高基于Gauss混合模型通用背景模型Keywords:two-layerstructure;fastspeakeridentification;(GMM-UBM)的說話人辨認系統(tǒng)的運算效率,提出一種基referencespeakermodel于參考說話人模型的雙層結(jié)構(gòu)用于目標說話人剪枝,
4、采用矢量量化方法從目標說話人模型集合中訓練參考說話人模型,說話人辨認是說話人識別的一種,把待辨認利用語音與參考說人模型的偏差來描述說話人的發(fā)音特性,的語音判定為是否屬于N個目標說話人當中的某將辨認語音偏差向量和目標說話人偏差向量的相似性作為[1]一位,是一個多選一的問題。說話人辨認在近距離度量來進行目標說話人剪枝。實驗結(jié)果表明:在基于十幾年來一直都是研究熱點,也在許多領(lǐng)域如司GMM-UBM的說話人辨認系統(tǒng)中,對包含5200個目標說話法和金融領(lǐng)域得到了實際應(yīng)用。目前說話人辨認人和1000個集外說話人的測試集進行開集辨認的條件下,最流行的方法是Gauss混合模型通用背景模型在提高
5、辨認的運算效率12.5倍的同時識別率僅下降(Gaussianmixturemodel-universalbackgroundmod-0.3%。[2]關(guān)鍵詞:雙層結(jié)構(gòu);快速說話人辨認;參考說話人模型el,GMM-UBM),Gauss混合模型支持向量機(Gaussianmixturemodel-supportvectormodel,中圖分類號:TP391文獻標志碼:A[3]GMM-SVM),或者以GMM-UBM為基礎(chǔ)進行文章編號:1000-0054(2011)09-1261-06的一定地改進,如聯(lián)合因子分析(jointfactoranaly-[4]sis,JFA)等。當前的說話人
6、辨認系統(tǒng)在一定Speakeridentificationusingareference條件下已經(jīng)能達到很高的準確率[1-2],但是隨著目speakermodelbasedatwo-layerstructure標說話人數(shù)量的增多[5](幾千甚至上萬或更大),WANGGang,WUXiaojun,ZHENGThomasFang,目前的說話人辨認系統(tǒng)的時間性能往往較難滿足WANGLinlin,ZHANGChenhao要求,尤其是對于那些實時性要求較高的系統(tǒng)。(1.CenterforSpeechandLanguageTechnologies,Divisionof例如在安全監(jiān)聽當中,需
7、要快速辨認監(jiān)聽語音是TechnicalInnovationandDevelopment,否屬于目標說話人集合中的某一個,不僅要求系TsinghuaNationalLaboratoryforInformationScienceandTechnology,Beijing100084,China;統(tǒng)有較好的辨認準確率,還要求有很高的辨認2.DepartmentofComputerScienceandTechnology,速度。TsinghuaUniversity,Beijing100084,China)[3]