資源描述:
《第7章說話人識(shí)別》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、1.什么是說話人識(shí)別(SR)?說話人識(shí)別(SpeakerRecognition,SR)技術(shù)是以話音對(duì)說話人進(jìn)行區(qū)分,從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。在國外,說話人識(shí)別技術(shù)獲得了廣泛的研究,同時(shí)也有少量成熟產(chǎn)品問世。AT&T、TI與美國著名的通訊公司Sprint都已經(jīng)展開了在聲音識(shí)別領(lǐng)域的實(shí)驗(yàn)和實(shí)際的應(yīng)用。說話人識(shí)別技術(shù)有著廣闊的市場(chǎng)應(yīng)用前景。通過SR技術(shù),可以利用人本身的生物特性進(jìn)行身份鑒別,例如為公安部門進(jìn)行語音驗(yàn)證、為一般用戶提供防盜門開啟功能等等。在互聯(lián)網(wǎng)應(yīng)用及通信領(lǐng)域,SR技術(shù)可以應(yīng)用于諸如聲音撥號(hào)、電話銀行、電話購物、數(shù)據(jù)庫訪問、
2、信息服務(wù)、語音E-mail、安全控制、計(jì)算機(jī)遠(yuǎn)程登錄等領(lǐng)域。在呼叫中心應(yīng)用上,SR技術(shù)同樣可以提供更加個(gè)性化的人機(jī)交互界面。當(dāng)顧客以電話方式對(duì)呼叫中心進(jìn)行請(qǐng)求時(shí),系統(tǒng)能夠根據(jù)話音判斷出來者的身份,從而提供更個(gè)性化、更貼心的服務(wù)。近年來,在生物識(shí)別技術(shù)領(lǐng)域中,聲紋識(shí)別技術(shù)以其獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢(shì)受到世人矚目,并日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩?yàn)證方式。聲紋識(shí)別屬于生物識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)。與語音識(shí)別不同的是,聲紋識(shí)別利用的是語音信號(hào)中的說話
3、人信息,而不考慮語音中的字詞意思,它強(qiáng)調(diào)說話人的個(gè)性;而語音識(shí)別的目的是識(shí)別出語音信號(hào)中的言語內(nèi)容,并不考慮說話人是誰,它強(qiáng)調(diào)共性。聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。2.SR的歷史60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別的發(fā)展。70年代,語音識(shí)別領(lǐng)域取得了突破80年代,語音識(shí)別研究進(jìn)一步走向深入進(jìn)入90年代,隨著多媒體時(shí)代的來臨,迫切要求語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱?。我國語音識(shí)別研究工作一直緊跟國際水平,國家也很
4、重視,并把大詞匯量語音識(shí)別的研究列入“863”計(jì)劃,由中科院聲學(xué)所、自動(dòng)化所及北京大學(xué)等單位研究開發(fā)。3.語音識(shí)別技術(shù)語音識(shí)別系統(tǒng)的分類方式及依據(jù)根據(jù)對(duì)說話人說話方式的要求,可以分為孤立字(詞)語音識(shí)別系統(tǒng),連接字語音識(shí)別系統(tǒng)以及連續(xù)語音識(shí)別系統(tǒng)根據(jù)對(duì)說話人的依賴程度可以分為特定人和非特定人語音識(shí)別系統(tǒng)。根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)。不同的語音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個(gè)典型語音識(shí)別系統(tǒng)的實(shí)現(xiàn)過程如圖1所示。特征提取模式匹配模型庫識(shí)別結(jié)果語音輸入圖1語
5、音識(shí)別的實(shí)現(xiàn)語音分析身份聲明模型產(chǎn)生模型存儲(chǔ)特征提取距離測(cè)量識(shí)別判決表征說話人特點(diǎn)的基本特征這些特征應(yīng)該具有如下特點(diǎn):(1)能夠有效地區(qū)分不同的說話人,但又能在同一說話人的語音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。(2)易于從語音信號(hào)中提取。(3)不易被模仿。特征提取聲紋識(shí)別系統(tǒng)中的特征檢測(cè)即提取語音信號(hào)中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說話人,且對(duì)同一說話人的變化保持相對(duì)穩(wěn)定??紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)問題,目前的聲紋識(shí)別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。說話人特征大體可歸為下述幾類:譜包絡(luò)參數(shù)語音信息通過
6、濾波器組輸出,以合適的速率對(duì)濾波器輸出抽樣,并將它們作為聲紋識(shí)別特征?;糨喞⒐舱穹孱l率帶寬及其軌跡這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。特征提取線性預(yù)測(cè)系數(shù)使用線性預(yù)測(cè)系數(shù)是語音信號(hào)處理中的一次飛躍,以線性預(yù)測(cè)導(dǎo)出的各種參數(shù),如線性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、線性預(yù)測(cè)殘差及其組合等參數(shù),作為識(shí)別特征,可以得到較好的效果。主要原因是線性預(yù)測(cè)與聲道參數(shù)模型是相符合的。反映聽覺特性的參數(shù)模擬人耳對(duì)聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線性預(yù)測(cè)等。此外,人們還通過對(duì)不同特征參量的組合來
7、提高實(shí)際系統(tǒng)的性能,當(dāng)各組合參量間相關(guān)性不大時(shí),會(huì)有較好的效果,因?yàn)樗鼈兎謩e反映了語音信號(hào)的不同特征。說話人識(shí)別的幾種方法1.模板匹配法模板匹配法的要點(diǎn)是:在訓(xùn)練過程中從每個(gè)說話人發(fā)出的訓(xùn)練語句中提取相應(yīng)的特征矢量,這些特征矢量能充分描寫各個(gè)說話人的行為。這些特征矢量稱為各說話人的模板。它們可以從單詞,數(shù)字串或句子中提取。在測(cè)試階段,從說話人發(fā)出的語音信號(hào)中按同樣的處理方法提取測(cè)試模板,并且與其相應(yīng)的參考模板相比較。2.概率統(tǒng)計(jì)方法語音中說話人信息在短時(shí)內(nèi)較為平穩(wěn),通過對(duì)穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、方差
8、等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。其優(yōu)點(diǎn)是不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整,比較適合文本無關(guān)的說話人識(shí)別利用子詞單元構(gòu)成的隱含馬爾柯夫模型,構(gòu)成了一個(gè)說話人確認(rèn)系統(tǒng),每個(gè)子詞單元用一個(gè)從左至右