資源描述:
《文本無(wú)關(guān)說(shuō)話人識(shí)別探究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、文本無(wú)關(guān)說(shuō)話人識(shí)別探究摘要:介紹說(shuō)話人識(shí)別技術(shù)發(fā)展情況,闡述包括特征提取、識(shí)別算法和區(qū)分算法在內(nèi)的文本無(wú)關(guān)說(shuō)話人識(shí)別系統(tǒng)的整體技術(shù)框架和基本工作原理針對(duì)文本無(wú)關(guān)說(shuō)話人識(shí)別相關(guān)技術(shù)給出了近幾年主要發(fā)展的髙斯超向量一支持向量機(jī)模型(GSVSVM)、聯(lián)合因子分析模型(JFA)和鑒別性向量(ivector)模型,并對(duì)3種模型進(jìn)行了分析比較:指出GSVSVM模型可以提高識(shí)別系統(tǒng)性能;JFA模型能提高系統(tǒng)性能但計(jì)算量過(guò)大,難以實(shí)現(xiàn)應(yīng)用;ivector模型降低了計(jì)算量,并能提高識(shí)別精確度和效率,是目前的研究熱點(diǎn)。最后指出當(dāng)前文本無(wú)關(guān)說(shuō)話人識(shí)別的研究
2、難點(diǎn)和熱點(diǎn)。關(guān)鍵詞:文本無(wú)關(guān);說(shuō)話人識(shí)別;特征提??;模式識(shí)別中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):10053824(2013)040048050引言說(shuō)話人識(shí)別是從說(shuō)話人所發(fā)語(yǔ)音中提取說(shuō)話人是誰(shuí)的信息的過(guò)程。說(shuō)話人識(shí)別和通常所說(shuō)的語(yǔ)音識(shí)別有較大區(qū)別,語(yǔ)音識(shí)別的目的在于想知道說(shuō)話人所說(shuō)的內(nèi)容,而說(shuō)話人識(shí)別的目的是想知道誰(shuí)在說(shuō)話而不關(guān)心所說(shuō)的內(nèi)容。說(shuō)話人識(shí)別按照說(shuō)話內(nèi)容的類(lèi)型不同分為文本有關(guān)(textdependent)和文本無(wú)關(guān)(textindependent)2種[1]。文本有關(guān)要求識(shí)別和訓(xùn)練時(shí)說(shuō)同樣內(nèi)容的語(yǔ)音,文本無(wú)關(guān)則不需要
3、所說(shuō)內(nèi)容相同??梢?jiàn),文本無(wú)關(guān)說(shuō)話人識(shí)別具有更廣泛的應(yīng)用。說(shuō)話人識(shí)別的研究始于20世紀(jì)30年代,早期的主要工作集中在利用語(yǔ)音波形信號(hào)進(jìn)行說(shuō)話人識(shí)別方面。1962年Bell實(shí)驗(yàn)室的Kesta提出使用語(yǔ)譜圖進(jìn)行說(shuō)話人識(shí)別的方法[2]。語(yǔ)譜圖直觀明了,類(lèi)似于指紋識(shí)別,故說(shuō)話人識(shí)別又稱(chēng)為聲紋識(shí)別o1969年Luck提出倒譜(Ceptrum)技術(shù)[3],1976年Atal等人提出線性預(yù)測(cè)倒譜系數(shù)(LPCC)[4],提高了說(shuō)話人識(shí)別的精度。說(shuō)話人識(shí)別模型方面,60年代,主要采用模板匹配的方法,70年代,動(dòng)態(tài)時(shí)間規(guī)整(DTW)和矢量量化(VQ)技術(shù)成
4、為主流,說(shuō)話人識(shí)別性能得到了較大的提高[5]o80年代后,Davis提出將Mel頻率倒譜參數(shù)(MFCC)用于說(shuō)話人識(shí)別[6]。MFCC由于考慮了人耳的聽(tīng)覺(jué)感知機(jī)理,具有較好的識(shí)別效果和噪聲魯棒性,成為說(shuō)話人識(shí)別中使用的主流參數(shù)。此時(shí),隱馬爾科夫模型(HMM)也在語(yǔ)音識(shí)別領(lǐng)域得到了成功和廣泛的應(yīng)用,成為語(yǔ)音識(shí)別的核心技術(shù)[7]。90年代后,Reynolds將高斯混合模型(GMM)應(yīng)用到了說(shuō)話人識(shí)別:8],GMM以其簡(jiǎn)單靈活有效以及具有較好的魯棒性特征,迅速成為當(dāng)時(shí)的主流技術(shù)o2000年左右,Reynolds又提出GMMUBM結(jié)構(gòu)用于文本
5、無(wú)關(guān)說(shuō)話人識(shí)別,降低了GMM對(duì)訓(xùn)練集的依賴(lài),文本無(wú)關(guān)的說(shuō)話人識(shí)別開(kāi)始從實(shí)驗(yàn)室走向?qū)嵱肹9]。2006年,Campbell在GMMUBM結(jié)構(gòu)基礎(chǔ)上提出高斯超向量(supervector)概念,并與支持向量機(jī)融合為高斯混合超向量支持向量機(jī)模型(GSVSVM)用于文本無(wú)關(guān)說(shuō)話人識(shí)別[10],成為目前國(guó)內(nèi)外文本無(wú)關(guān)說(shuō)話人識(shí)別的主流技術(shù)。近年來(lái),學(xué)者們又在高斯超向量基礎(chǔ)上,提出了聯(lián)合因子分析(JFA)[11]、鑒別性向量(ivector)[12]等模型,使得文本無(wú)關(guān)說(shuō)話人識(shí)別系統(tǒng)的性能有了突飛猛進(jìn)的提高,上述3種模型已成為美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院
6、(NIST)組織的文本無(wú)關(guān)說(shuō)話人識(shí)別測(cè)評(píng)中占主導(dǎo)地位的技術(shù)。說(shuō)話人識(shí)別的發(fā)展歷程如圖1所示。2文本無(wú)關(guān)說(shuō)話人識(shí)別的關(guān)鍵技術(shù)從文本無(wú)關(guān)說(shuō)話人識(shí)別系統(tǒng)基本原理可以看到,說(shuō)話人識(shí)別的關(guān)鍵技術(shù)主要包括特征提取和識(shí)別模型。2.1特征提取說(shuō)話人識(shí)別系統(tǒng)中的特征提取就是提取語(yǔ)音信號(hào)中說(shuō)話人的基本特征,此特征應(yīng)能有效區(qū)分不同的說(shuō)話人,且對(duì)同一說(shuō)話人的變化保持相對(duì)穩(wěn)定。說(shuō)話人識(shí)別的語(yǔ)音參數(shù)從低到高大致可分為以下3類(lèi):一是聲學(xué)特征(spectral),主要包括底層聲學(xué)參數(shù),如倒譜參數(shù)等;二是韻律特征(prosodic),主要包括音高、共振峰、語(yǔ)速、基音周
7、期等;三是高層特征(highlevel),主要包括詞法、常用語(yǔ)和口音信息等。由于高層參數(shù)和韻律參數(shù)對(duì)語(yǔ)音時(shí)間要求較長(zhǎng),不易量化,目前實(shí)際應(yīng)用的說(shuō)話人識(shí)別系統(tǒng)主要使用底層的聲學(xué)特征參數(shù),如線性預(yù)測(cè)倒譜參數(shù)LPCC、Mel頻率倒譜參數(shù)MFCC等[13]o2.2識(shí)別模型說(shuō)話人識(shí)別的識(shí)別模型大致可以分為模板匹配、概率模型和區(qū)分模型等幾類(lèi)。1)模板匹配法。即在訓(xùn)練過(guò)程中從每個(gè)說(shuō)話人發(fā)出的訓(xùn)練語(yǔ)句中提取能區(qū)分描述各說(shuō)話人特性的特征矢量,以此為參考模板。識(shí)別時(shí),對(duì)待識(shí)別語(yǔ)音用同樣的處理方法提取識(shí)別模板,之后根據(jù)與參考模板的相似程度進(jìn)行判斷。常用的方
8、法有動(dòng)態(tài)時(shí)間規(guī)整法(DTW)、矢量量化法(VQ)等。目前這類(lèi)方法基本被概率模型和區(qū)分模型所取代。2)概率模型法。即采用某種概率密度函數(shù)來(lái)描述說(shuō)話人的語(yǔ)音特征空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)作為說(shuō)話人模型。同時(shí)