文本無(wú)關(guān)說(shuō)話人識(shí)別探究

ID：32985084

大?。?0.78 KB

頁(yè)數(shù)：9頁(yè)

時(shí)間：2019-02-18

文本無(wú)關(guān)說(shuō)話人識(shí)別探究_第1頁(yè)

文本無(wú)關(guān)說(shuō)話人識(shí)別探究_第2頁(yè)

文本無(wú)關(guān)說(shuō)話人識(shí)別探究_第3頁(yè)

文本無(wú)關(guān)說(shuō)話人識(shí)別探究_第4頁(yè)

文本無(wú)關(guān)說(shuō)話人識(shí)別探究_第5頁(yè)

資源描述：

《文本無(wú)關(guān)說(shuō)話人識(shí)別探究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、文本無(wú)關(guān)說(shuō)話人識(shí)別探究摘要：介紹說(shuō)話人識(shí)別技術(shù)發(fā)展情況，闡述包括特征提取、識(shí)別算法和區(qū)分算法在內(nèi)的文本無(wú)關(guān)說(shuō)話人識(shí)別系統(tǒng)的整體技術(shù)框架和基本工作原理針對(duì)文本無(wú)關(guān)說(shuō)話人識(shí)別相關(guān)技術(shù)給出了近幾年主要發(fā)展的髙斯超向量一支持向量機(jī)模型(GSVSVM)、聯(lián)合因子分析模型(JFA)和鑒別性向量(ivector)模型，并對(duì)3種模型進(jìn)行了分析比較：指出GSVSVM模型可以提高識(shí)別系統(tǒng)性能；JFA模型能提高系統(tǒng)性能但計(jì)算量過(guò)大，難以實(shí)現(xiàn)應(yīng)用；ivector模型降低了計(jì)算量，并能提高識(shí)別精確度和效率，是目前的研究熱點(diǎn)。最后指出當(dāng)前文本無(wú)關(guān)說(shuō)話人識(shí)別的研究

2、難點(diǎn)和熱點(diǎn)。關(guān)鍵詞：文本無(wú)關(guān)；說(shuō)話人識(shí)別；特征提??；模式識(shí)別中圖分類(lèi)號(hào)：TP391文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：10053824(2013)040048050引言說(shuō)話人識(shí)別是從說(shuō)話人所發(fā)語(yǔ)音中提取說(shuō)話人是誰(shuí)的信息的過(guò)程。說(shuō)話人識(shí)別和通常所說(shuō)的語(yǔ)音識(shí)別有較大區(qū)別，語(yǔ)音識(shí)別的目的在于想知道說(shuō)話人所說(shuō)的內(nèi)容，而說(shuō)話人識(shí)別的目的是想知道誰(shuí)在說(shuō)話而不關(guān)心所說(shuō)的內(nèi)容。說(shuō)話人識(shí)別按照說(shuō)話內(nèi)容的類(lèi)型不同分為文本有關(guān)(textdependent)和文本無(wú)關(guān)(textindependent)2種［1］。文本有關(guān)要求識(shí)別和訓(xùn)練時(shí)說(shuō)同樣內(nèi)容的語(yǔ)音，文本無(wú)關(guān)則不需要

3、所說(shuō)內(nèi)容相同?？梢?jiàn)，文本無(wú)關(guān)說(shuō)話人識(shí)別具有更廣泛的應(yīng)用。說(shuō)話人識(shí)別的研究始于20世紀(jì)30年代，早期的主要工作集中在利用語(yǔ)音波形信號(hào)進(jìn)行說(shuō)話人識(shí)別方面。1962年Bell實(shí)驗(yàn)室的Kesta提出使用語(yǔ)譜圖進(jìn)行說(shuō)話人識(shí)別的方法[2]。語(yǔ)譜圖直觀明了，類(lèi)似于指紋識(shí)別，故說(shuō)話人識(shí)別又稱(chēng)為聲紋識(shí)別o1969年Luck提出倒譜（Ceptrum）技術(shù)[3],1976年Atal等人提出線性預(yù)測(cè)倒譜系數(shù)（LPCC）[4],提高了說(shuō)話人識(shí)別的精度。說(shuō)話人識(shí)別模型方面，60年代，主要采用模板匹配的方法，70年代，動(dòng)態(tài)時(shí)間規(guī)整（DTW）和矢量量化（VQ）技術(shù)成

4、為主流，說(shuō)話人識(shí)別性能得到了較大的提高[5]o80年代后，Davis提出將Mel頻率倒譜參數(shù)（MFCC）用于說(shuō)話人識(shí)別[6]。MFCC由于考慮了人耳的聽(tīng)覺(jué)感知機(jī)理，具有較好的識(shí)別效果和噪聲魯棒性，成為說(shuō)話人識(shí)別中使用的主流參數(shù)。此時(shí)，隱馬爾科夫模型（HMM）也在語(yǔ)音識(shí)別領(lǐng)域得到了成功和廣泛的應(yīng)用，成為語(yǔ)音識(shí)別的核心技術(shù)[7]。90年代后，Reynolds將高斯混合模型（GMM）應(yīng)用到了說(shuō)話人識(shí)別：8],GMM以其簡(jiǎn)單靈活有效以及具有較好的魯棒性特征，迅速成為當(dāng)時(shí)的主流技術(shù)o2000年左右，Reynolds又提出GMMUBM結(jié)構(gòu)用于文本

5、無(wú)關(guān)說(shuō)話人識(shí)別，降低了GMM對(duì)訓(xùn)練集的依賴(lài)，文本無(wú)關(guān)的說(shuō)話人識(shí)別開(kāi)始從實(shí)驗(yàn)室走向?qū)嵱肹9]。2006年，Campbell在GMMUBM結(jié)構(gòu)基礎(chǔ)上提出高斯超向量(supervector)概念，并與支持向量機(jī)融合為高斯混合超向量支持向量機(jī)模型(GSVSVM)用于文本無(wú)關(guān)說(shuō)話人識(shí)別[10],成為目前國(guó)內(nèi)外文本無(wú)關(guān)說(shuō)話人識(shí)別的主流技術(shù)。近年來(lái)，學(xué)者們又在高斯超向量基礎(chǔ)上，提出了聯(lián)合因子分析(JFA)[11]、鑒別性向量(ivector)[12]等模型，使得文本無(wú)關(guān)說(shuō)話人識(shí)別系統(tǒng)的性能有了突飛猛進(jìn)的提高，上述3種模型已成為美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院

6、(NIST)組織的文本無(wú)關(guān)說(shuō)話人識(shí)別測(cè)評(píng)中占主導(dǎo)地位的技術(shù)。說(shuō)話人識(shí)別的發(fā)展歷程如圖1所示。2文本無(wú)關(guān)說(shuō)話人識(shí)別的關(guān)鍵技術(shù)從文本無(wú)關(guān)說(shuō)話人識(shí)別系統(tǒng)基本原理可以看到，說(shuō)話人識(shí)別的關(guān)鍵技術(shù)主要包括特征提取和識(shí)別模型。2.1特征提取說(shuō)話人識(shí)別系統(tǒng)中的特征提取就是提取語(yǔ)音信號(hào)中說(shuō)話人的基本特征，此特征應(yīng)能有效區(qū)分不同的說(shuō)話人，且對(duì)同一說(shuō)話人的變化保持相對(duì)穩(wěn)定。說(shuō)話人識(shí)別的語(yǔ)音參數(shù)從低到高大致可分為以下3類(lèi)：一是聲學(xué)特征(spectral),主要包括底層聲學(xué)參數(shù)，如倒譜參數(shù)等；二是韻律特征(prosodic),主要包括音高、共振峰、語(yǔ)速、基音周

7、期等;三是高層特征（highlevel）,主要包括詞法、常用語(yǔ)和口音信息等。由于高層參數(shù)和韻律參數(shù)對(duì)語(yǔ)音時(shí)間要求較長(zhǎng)，不易量化，目前實(shí)際應(yīng)用的說(shuō)話人識(shí)別系統(tǒng)主要使用底層的聲學(xué)特征參數(shù)，如線性預(yù)測(cè)倒譜參數(shù)LPCC、Mel頻率倒譜參數(shù)MFCC等[13]o2.2識(shí)別模型說(shuō)話人識(shí)別的識(shí)別模型大致可以分為模板匹配、概率模型和區(qū)分模型等幾類(lèi)。1）模板匹配法。即在訓(xùn)練過(guò)程中從每個(gè)說(shuō)話人發(fā)出的訓(xùn)練語(yǔ)句中提取能區(qū)分描述各說(shuō)話人特性的特征矢量，以此為參考模板。識(shí)別時(shí)，對(duì)待識(shí)別語(yǔ)音用同樣的處理方法提取識(shí)別模板，之后根據(jù)與參考模板的相似程度進(jìn)行判斷。常用的方

8、法有動(dòng)態(tài)時(shí)間規(guī)整法（DTW）、矢量量化法（VQ）等。目前這類(lèi)方法基本被概率模型和區(qū)分模型所取代。2）概率模型法。即采用某種概率密度函數(shù)來(lái)描述說(shuō)話人的語(yǔ)音特征空間的分布情況，并以該概率密度函數(shù)的一組參數(shù)作為說(shuō)話人模型。同時(shí)

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 9



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

文本無(wú)關(guān)說(shuō)話人識(shí)別探究

文本無(wú)關(guān)說(shuō)話人識(shí)別探究

相關(guān)文章

相關(guān)標(biāo)簽