基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認

基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認

ID:36502707

大小:371.26 KB

頁數(shù):7頁

時間:2019-05-11

基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認_第1頁
基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認_第2頁
基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認_第3頁
基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認_第4頁
基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認_第5頁
資源描述:

《基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、Seediscussions,stats,andauthorprofilesforthispublicationat:https://www.researchgate.net/publication/267470442Speakeridentificationusingareferencespeakermodelbasedatwo-layerstructureArticleinQinghuaDaxueXuebao/JournalofTsinghuaUniversity·September2011CITATIONSREADS0155authors,including:GangW

2、angFangZhengAIOFMTsinghuaUniversity92PUBLICATIONS652CITATIONS177PUBLICATIONS841CITATIONSSEEPROFILESEEPROFILEAllcontentfollowingthispagewasuploadedbyFangZhengon11November2014.Theuserhasrequestedenhancementofthedownloadedfile.ISSN1000-0054清華大學學報(自然科學版)2011年第51卷第9期22/33CN11-2223/NJTsinghuaUniv

3、(Sci&Tech),2011,Vol.51,No.91261-1266基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認王剛,鄔曉鈞,鄭方,王琳琳,張陳昊(1.清華信息科學技術(shù)國家實驗室技術(shù)創(chuàng)新與開發(fā)部語音和語言技術(shù)中心,北京100084;2.清華大學計算機科學與技術(shù)系,北京100084)摘要:為了提高基于Gauss混合模型通用背景模型Keywords:two-layerstructure;fastspeakeridentification;(GMM-UBM)的說話人辨認系統(tǒng)的運算效率,提出一種基referencespeakermodel于參考說話人模型的雙層結(jié)構(gòu)用于目標說話人剪枝,

4、采用矢量量化方法從目標說話人模型集合中訓練參考說話人模型,說話人辨認是說話人識別的一種,把待辨認利用語音與參考說人模型的偏差來描述說話人的發(fā)音特性,的語音判定為是否屬于N個目標說話人當中的某將辨認語音偏差向量和目標說話人偏差向量的相似性作為[1]一位,是一個多選一的問題。說話人辨認在近距離度量來進行目標說話人剪枝。實驗結(jié)果表明:在基于十幾年來一直都是研究熱點,也在許多領(lǐng)域如司GMM-UBM的說話人辨認系統(tǒng)中,對包含5200個目標說話法和金融領(lǐng)域得到了實際應(yīng)用。目前說話人辨認人和1000個集外說話人的測試集進行開集辨認的條件下,最流行的方法是Gauss混合模型通用背景模型在提高

5、辨認的運算效率12.5倍的同時識別率僅下降(Gaussianmixturemodel-universalbackgroundmod-0.3%。[2]關(guān)鍵詞:雙層結(jié)構(gòu);快速說話人辨認;參考說話人模型el,GMM-UBM),Gauss混合模型支持向量機(Gaussianmixturemodel-supportvectormodel,中圖分類號:TP391文獻標志碼:A[3]GMM-SVM),或者以GMM-UBM為基礎(chǔ)進行文章編號:1000-0054(2011)09-1261-06的一定地改進,如聯(lián)合因子分析(jointfactoranaly-[4]sis,JFA)等。當前的說話人

6、辨認系統(tǒng)在一定Speakeridentificationusingareference條件下已經(jīng)能達到很高的準確率[1-2],但是隨著目speakermodelbasedatwo-layerstructure標說話人數(shù)量的增多[5](幾千甚至上萬或更大),WANGGang,WUXiaojun,ZHENGThomasFang,目前的說話人辨認系統(tǒng)的時間性能往往較難滿足WANGLinlin,ZHANGChenhao要求,尤其是對于那些實時性要求較高的系統(tǒng)。(1.CenterforSpeechandLanguageTechnologies,Divisionof例如在安全監(jiān)聽當中,需

7、要快速辨認監(jiān)聽語音是TechnicalInnovationandDevelopment,否屬于目標說話人集合中的某一個,不僅要求系TsinghuaNationalLaboratoryforInformationScienceandTechnology,Beijing100084,China;統(tǒng)有較好的辨認準確率,還要求有很高的辨認2.DepartmentofComputerScienceandTechnology,速度。TsinghuaUniversity,Beijing100084,China)[3]

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。