資源描述:
《說話人確認和辨認的研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、密級:秘密說話人確認和辨認的研究與實現(xiàn)ResearchandImplementationofSpeakerVerificationandIdentification(申請清華大學(xué)工學(xué)碩士學(xué)位論文)院(系、所):計算機科學(xué)與技術(shù)系專業(yè):計算機應(yīng)用研究生:何致遠指導(dǎo)教師:胡起秀教授2002年6月說話人確認和辨認的研究與實現(xiàn)何致遠獨創(chuàng)性聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得清華大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材
2、料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。簽名:H期:關(guān)于論文使用授權(quán)的說明本人完全了解清華大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)校可以公布論文的全部或部分內(nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:日期:說話人識別是語音信號處理的核心技術(shù)之一,隨著人機交互和多媒體技術(shù)的發(fā)展以及普適計算的提出,說話人確認和辨認技術(shù)得到了越來越多的重視,其研究與應(yīng)用也在不斷發(fā)展和深化山2,21]。木文圍繞著為完成國家863項
3、目、清華大學(xué)985項目以及某公安部門與清華大學(xué)的合作開發(fā)項目等任務(wù)而實現(xiàn)的若干說話人確認和辨認系統(tǒng),詳細介紹了說話人識別的基木概念和基木理論,深入闡述了說話人確認和辨認中的關(guān)鍵技術(shù)及系統(tǒng)實現(xiàn),并對說話人識別的研究與應(yīng)用進行了總結(jié)和展望。已經(jīng)實現(xiàn)的說話人識別系統(tǒng)包括:?基于隨機數(shù)字串的文木提示的說話人確認系統(tǒng);?基于姓名的文木相關(guān)的說話人確認系統(tǒng)和說話人辨認系統(tǒng);?基于連續(xù)語音的文本無關(guān)的說話人確認系統(tǒng);?基于連續(xù)語音的文本無關(guān)的閉集和開集說話人辨認系統(tǒng)。在這些系統(tǒng)的實現(xiàn)過程中,我對說話人確認和辨認進行了深入的研究,取得了以下成果:(1)提出了一種基于公共
4、碼本的DHMM模型訓(xùn)練方法⑺,并用這種方法成功地實現(xiàn)了文木提示和文木相關(guān)的說話人確認及辨認。該方法能夠有效地降低訓(xùn)練和識別所需的語音數(shù)據(jù)量,并保持較高的識別準確率。與采用個人碼本的模型訓(xùn)練方法相比,這種方法能夠準確地區(qū)分正識者和冒充者,并且其相似性得分能夠肓接反映出說話人個性特征的差異,不需要另外設(shè)計得分規(guī)一化算法。(2)在以往研究的基礎(chǔ)上提出了一種基于碼本統(tǒng)計分布的距離測度l,0J,并運用于文木無關(guān)的說話人確認和辨認。這種距離測度克服了傳統(tǒng)的絕對值距離和歐氏距離無法正確反映正識者和冒充者之間特征差異的缺陷,能夠有效地度量集內(nèi)訓(xùn)練人和集外說話人之間、以及
5、集內(nèi)各個訓(xùn)練人之間的特征差異。(3)提出了一種基于背景說話人模型差的得分規(guī)一化方法和拒識閾值的區(qū)間估計方法,成功地解決了文本無關(guān)的說話人確認和開集說話人辨認的拒識問題。在以往的研究中,我們用擬合高斯分布的方法進行得分規(guī)一化,并用統(tǒng)計值或?qū)嶒炛底鳛榫茏R閾值⑸。這種方法雖然速度較快,但準確性欠佳?;诒尘罢f話人模型差的得分規(guī)一化方法精確地描述了冒充者在高維特征空間中的分布,用區(qū)間估計方法產(chǎn)牛的拒識閾值偏差也相對較小,從而大大提高了識別的準確性[g]。(1)針對說話人識別中語音能量變化和噪聲對提取有效語音數(shù)據(jù)的影響,在傳統(tǒng)時域語音切分算法山的基礎(chǔ)上,提出了3種
6、孤立詞精確切分算法和1種連續(xù)語音的非精確切分算法,它們分別是:?基于幀幅度統(tǒng)計閾值的孤立詞切分算法;這種算法能夠較好地克服各個孤立詞語音能量變化對切分的影響,實際運用于基于隨機數(shù)字串的文木提示的說話人確認系統(tǒng)中。?基于動態(tài)搜索窗的孤立詞切分算法;這種算法能夠較準確地區(qū)分能量較低的短時噪聲和一般孤立詞語音,實際運用于基于姓名的文木相關(guān)的說話人確認系統(tǒng)中。?基于幀參數(shù)規(guī)一化的孤立詞切分算法;前兩種切分算法有一個共同的缺點,即需要較多的局部閾值和加權(quán)系數(shù),算法的相關(guān)程度較高,魯棒性較差。基于幀參數(shù)規(guī)一化的孤立詞切分算法考慮了長吋語音的變化,并且相關(guān)性較低,因而
7、魯棒性較強。實際運用于基于姓名的文本相關(guān)的說話人辨認系統(tǒng)中。?基于幀信噪比統(tǒng)計閾值的連續(xù)語音切分算法。這種方法針對連續(xù)語音的說話人識別中不需要對語音進行精確切分的特點,舍棄那些信噪比較低的無聲幀和噪聲幀,達到數(shù)據(jù)選擇的目的。我們在基于連續(xù)語音的文木無關(guān)的說話人確認和辨認系統(tǒng)中使用了這種切分算法,實驗表明這確實是一種簡便實用的方法。(2)提出了一種兩級決策的開集說話人辨認方法。與傳統(tǒng)的開集拒識策略不同,這種方法能夠有效地降低由于僅有一個公共拒識閾值而帶來的決策風(fēng)險,進而提高識別的正確率。關(guān)鍵詞:說話人確認,說話人辨認,語音切分,距離測度,背景說話人模型,得
8、分規(guī)一化,拒識閾值A(chǔ)bstractSpeakerrecognitionisake