基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認

ID：36502707

大小：371.26 KB

頁數(shù)：7頁

時間：2019-05-11

資源描述：

《基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、Seediscussions,stats,andauthorprofilesforthispublicationat:https://www.researchgate.net/publication/267470442Speakeridentificationusingareferencespeakermodelbasedatwo-layerstructureArticleinQinghuaDaxueXuebao/JournalofTsinghuaUniversity·September2011CITATIONSREADS0155authors,including:GangW

2、angFangZhengAIOFMTsinghuaUniversity92PUBLICATIONS652CITATIONS177PUBLICATIONS841CITATIONSSEEPROFILESEEPROFILEAllcontentfollowingthispagewasuploadedbyFangZhengon11November2014.Theuserhasrequestedenhancementofthedownloadedfile.ＩＳＳＮ１０００－００５４清華大學學報（自然科學版）２０１１年第５１卷第９期２２／３３ＣＮ１１－２２２３／ＮＪＴｓｉｎｇｈｕａＵｎｉｖ

3、（Ｓｃｉ＆Ｔｅｃｈ），２０１１，Ｖｏｌ．５１，Ｎｏ．９１２６１－１２６６基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認王剛，鄔曉鈞，鄭方，王琳琳，張陳昊（１．清華信息科學技術(shù)國家實驗室技術(shù)創(chuàng)新與開發(fā)部語音和語言技術(shù)中心，北京１０００８４；２．清華大學計算機科學與技術(shù)系，北京１０００８４）摘要：為了提高基于Ｇａｕｓｓ混合模型通用背景模型Ｋｅｙｗｏｒｄｓ：ｔｗｏ－ｌａｙｅｒｓｔｒｕｃｔｕｒｅ；ｆａｓｔｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎ；（ＧＭＭ－ＵＢＭ）的說話人辨認系統(tǒng)的運算效率，提出一種基ｒｅｆｅｒｅｎｃｅｓｐｅａｋｅｒｍｏｄｅｌ于參考說話人模型的雙層結(jié)構(gòu)用于目標說話人剪枝，

4、采用矢量量化方法從目標說話人模型集合中訓練參考說話人模型，說話人辨認是說話人識別的一種，把待辨認利用語音與參考說人模型的偏差來描述說話人的發(fā)音特性，的語音判定為是否屬于Ｎ個目標說話人當中的某將辨認語音偏差向量和目標說話人偏差向量的相似性作為［１］一位，是一個多選一的問題。說話人辨認在近距離度量來進行目標說話人剪枝。實驗結(jié)果表明：在基于十幾年來一直都是研究熱點，也在許多領(lǐng)域如司ＧＭＭ－ＵＢＭ的說話人辨認系統(tǒng)中，對包含５２００個目標說話法和金融領(lǐng)域得到了實際應(yīng)用。目前說話人辨認人和１０００個集外說話人的測試集進行開集辨認的條件下，最流行的方法是Ｇａｕｓｓ混合模型通用背景模型在提高

5、辨認的運算效率１２．５倍的同時識別率僅下降（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ－ｕｎｉｖｅｒｓａｌｂａｃｋｇｒｏｕｎｄｍｏｄ－０．３％。［２］關(guān)鍵詞：雙層結(jié)構(gòu)；快速說話人辨認；參考說話人模型ｅｌ，ＧＭＭ－ＵＢＭ），Ｇａｕｓｓ混合模型支持向量機（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ－ｓｕｐｐｏｒｔｖｅｃｔｏｒｍｏｄｅｌ，中圖分類號：ＴＰ３９１文獻標志碼：Ａ［３］ＧＭＭ－ＳＶＭ），或者以ＧＭＭ－ＵＢＭ為基礎(chǔ)進行文章編號：１０００－００５４（２０１１）０９－１２６１－０６的一定地改進，如聯(lián)合因子分析（ｊｏｉｎｔｆａｃｔｏｒａｎａｌｙ－［４］ｓｉｓ，ＪＦＡ）等。當前的說話人

6、辨認系統(tǒng)在一定Ｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇａｒｅｆｅｒｅｎｃｅ條件下已經(jīng)能達到很高的準確率［１－２］，但是隨著目ｓｐｅａｋｅｒｍｏｄｅｌｂａｓｅｄａｔｗｏ－ｌａｙｅｒｓｔｒｕｃｔｕｒｅ標說話人數(shù)量的增多［５］（幾千甚至上萬或更大），ＷＡＮＧＧａｎｇ，ＷＵＸｉａｏｊｕｎ，ＺＨＥＮＧＴｈｏｍａｓＦａｎｇ，目前的說話人辨認系統(tǒng)的時間性能往往較難滿足ＷＡＮＧＬｉｎｌｉｎ，ＺＨＡＮＧＣｈｅｎｈａｏ要求，尤其是對于那些實時性要求較高的系統(tǒng)。（１．ＣｅｎｔｅｒｆｏｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ，Ｄｉｖｉｓｉｏｎｏｆ例如在安全監(jiān)聽當中，需

7、要快速辨認監(jiān)聽語音是ＴｅｃｈｎｉｃａｌＩｎｎｏｖａｔｉｏｎａｎｄＤｅｖｅｌｏｐｍｅｎｔ，否屬于目標說話人集合中的某一個，不僅要求系ＴｓｉｎｇｈｕａＮａｔｉｏｎａｌＬａｂｏｒａｔｏｒｙｆｏｒＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ１０００８４，Ｃｈｉｎａ；統(tǒng)有較好的辨認準確率，還要求有很高的辨認２．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，速度。ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８４，Ｃｈｉｎａ）［３］

當前文檔最多預覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認

基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認

相關(guān)文章

相關(guān)標簽