資源描述:
《文本無關(guān)的電話語音說話人確認的特征域信道補償方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、第一章緒論1.1說話人識別發(fā)展對說話人識別的研究始手20世紀30年代。最初是在第二次世界大戰(zhàn)期間,美國國防部向貝爾實驗室提出的課題,目的是根據(jù)竊聽的電話語音進行判斷說話人是哪一位德國高級將領(lǐng),這對分析當(dāng)時的德軍戰(zhàn)略部署具有重要的意義。早期的說話人識別工作主要集中在人耳聽辨實驗和探討聽音識別的可能性方面。隨著研究手段和工具的改進,研究工作逐漸脫離了單純的人耳聽辨。BeII實驗室的L-G.Kesta采用日視觀察語譜圖進行識別,提出了“聲紋lvo.ce州ntll.【11的概念。但是語譜圖難以量化,要由專門訓(xùn)練過的人
2、員進行識別。電子技術(shù)和計算機技術(shù)的發(fā)展,使通過機器自動識別人的聲音成為可能。60年代末70年代初語音識別被作為一個課題展開研究并取得了實質(zhì)性進展。語音信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù)的提出【2.5】,有效的解決了語音信號的特征提取和不等長匹配問題。這~時期的語音識別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識別,實現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定入孤立詞語音識別系統(tǒng);同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論【6】【7】。隨著應(yīng)用領(lǐng)域的擴大,小
3、詞匯表、特定人、孤立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,詞匯表的擴大使得模板的選取和建立發(fā)生困難;第二。連續(xù)語音中,各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位存在受上下文強烈影響的協(xié)同發(fā)音(Co·aniculaf.on)現(xiàn)象;第三,非特定人識別時,不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會有很大的差異;第四,識別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。。實驗室語音識別研究的
4、巨大突破產(chǎn)生于20世紀80年代末:人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個特性都集成在一個系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)lCamegieMe¨onUnivers計y)的Sphinx系統(tǒng),它是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。此時說話人識別研究進一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBe¨第一章緒論實驗室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,
5、從而為更多研究者了解和認識,從而使統(tǒng)計方法成為了開始應(yīng)用于說話人識別。統(tǒng)計方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語音特征的細化,而是更多地從整體平均(統(tǒng)計)的角度來建立最佳的語音識別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號短時穩(wěn)定、長時時變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語音的句子模型,達到了比較高的建模精度和建模靈活性。20世紀90年代,ReynoIds對高斯混合模型(GaussianM.xtureModeI,GM
6、M)做了詳盡介紹后【8】【9】,GMM以其簡單靈活有效成為文本無關(guān)說話人識別的主流技術(shù)。GMM可以表示為若干個高斯概率密度的線性組合,因而可以看作是只具有一個狀態(tài)的HMM,因為沒有狀態(tài)間的轉(zhuǎn)移,降低了語義相關(guān)的時序信息的影響,通過收集說話人的訓(xùn)練語音提取特征建立GMM,能夠?qū)φf話人總體的發(fā)音特征分布進行擬和,從而代表了該說話人與文本無關(guān)的統(tǒng)計特征分布。2000年左右,ReynoIds在說話人確認任務(wù)中提出了UBM.MAP【10】的結(jié)構(gòu),降低了GMM對于訓(xùn)練數(shù)據(jù)的依賴,說話人模型訓(xùn)練只需要較少的自適應(yīng)語音。當(dāng)前
7、各種新的說話人識別技術(shù)層出不窮,如大規(guī)模連續(xù)語音識別技術(shù)fLGrgeVocabularyCont.nuousSpeechRecogn_ition,LVCSR)111】應(yīng)用于文本無關(guān)的說話人識別,SVM與GMM的結(jié)合【12】【13】,語音信號中高層信息的應(yīng)用等,然而目前最成熟的技術(shù)仍然是基于GMM的。1.2說話人確認概述1.2.1說話人確認組成根據(jù)任務(wù)不同,說話人識別(SpeakerRecognition)又可以分為說話人辨識(Speakerldentificat.on)和說話入確認(SpeakerVer.f.
8、cafion),本文的研究內(nèi)容是針對說話人確認展開的。說話人確認(SpeakerVerifica“on)是根據(jù)說話人的語音來確定是否是其所聲明的身份(如圖1.1所示)。2第一章緒論判決結(jié)果(是/否)圖1-1說話人確認基本框圖說話人確認系統(tǒng)由三個部分組成,即前端處理、說話人建模以及判決。前端處理負責(zé)對高冗余度的語音波形信號進行預(yù)處理,去冗余,然后提取出易處理的,我們所感興趣的代表說話人特征的信息,也就