資源描述:
《說話人確認(rèn)和辨認(rèn)的研究與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、密級(jí):秘密說話人確認(rèn)和辨認(rèn)的研究與實(shí)現(xiàn)ResearchandImplementationofSpeakerVerificationandIdentification(申請(qǐng)清華大學(xué)工學(xué)碩士學(xué)位論文)院(系、所):計(jì)算機(jī)科學(xué)與技術(shù)系專業(yè):計(jì)算機(jī)應(yīng)用研究生:何致遠(yuǎn)指導(dǎo)教師:胡起秀教授2002年6月說話人確認(rèn)和辨認(rèn)的研究與實(shí)現(xiàn)何致遠(yuǎn)獨(dú)創(chuàng)性聲明本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得清華大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材
2、料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。簽名:H期:關(guān)于論文使用授權(quán)的說明本人完全了解清華大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:日期:說話人識(shí)別是語音信號(hào)處理的核心技術(shù)之一,隨著人機(jī)交互和多媒體技術(shù)的發(fā)展以及普適計(jì)算的提出,說話人確認(rèn)和辨認(rèn)技術(shù)得到了越來越多的重視,其研究與應(yīng)用也在不斷發(fā)展和深化山2,21]。木文圍繞著為完成國(guó)家863項(xiàng)
3、目、清華大學(xué)985項(xiàng)目以及某公安部門與清華大學(xué)的合作開發(fā)項(xiàng)目等任務(wù)而實(shí)現(xiàn)的若干說話人確認(rèn)和辨認(rèn)系統(tǒng),詳細(xì)介紹了說話人識(shí)別的基木概念和基木理論,深入闡述了說話人確認(rèn)和辨認(rèn)中的關(guān)鍵技術(shù)及系統(tǒng)實(shí)現(xiàn),并對(duì)說話人識(shí)別的研究與應(yīng)用進(jìn)行了總結(jié)和展望。已經(jīng)實(shí)現(xiàn)的說話人識(shí)別系統(tǒng)包括:?基于隨機(jī)數(shù)字串的文木提示的說話人確認(rèn)系統(tǒng);?基于姓名的文木相關(guān)的說話人確認(rèn)系統(tǒng)和說話人辨認(rèn)系統(tǒng);?基于連續(xù)語音的文本無關(guān)的說話人確認(rèn)系統(tǒng);?基于連續(xù)語音的文本無關(guān)的閉集和開集說話人辨認(rèn)系統(tǒng)。在這些系統(tǒng)的實(shí)現(xiàn)過程中,我對(duì)說話人確認(rèn)和辨認(rèn)進(jìn)行了深入的研究,取得了以下成果:(1)提出了一種基于公共
4、碼本的DHMM模型訓(xùn)練方法⑺,并用這種方法成功地實(shí)現(xiàn)了文木提示和文木相關(guān)的說話人確認(rèn)及辨認(rèn)。該方法能夠有效地降低訓(xùn)練和識(shí)別所需的語音數(shù)據(jù)量,并保持較高的識(shí)別準(zhǔn)確率。與采用個(gè)人碼本的模型訓(xùn)練方法相比,這種方法能夠準(zhǔn)確地區(qū)分正識(shí)者和冒充者,并且其相似性得分能夠肓接反映出說話人個(gè)性特征的差異,不需要另外設(shè)計(jì)得分規(guī)一化算法。(2)在以往研究的基礎(chǔ)上提出了一種基于碼本統(tǒng)計(jì)分布的距離測(cè)度l,0J,并運(yùn)用于文木無關(guān)的說話人確認(rèn)和辨認(rèn)。這種距離測(cè)度克服了傳統(tǒng)的絕對(duì)值距離和歐氏距離無法正確反映正識(shí)者和冒充者之間特征差異的缺陷,能夠有效地度量集內(nèi)訓(xùn)練人和集外說話人之間、以及
5、集內(nèi)各個(gè)訓(xùn)練人之間的特征差異。(3)提出了一種基于背景說話人模型差的得分規(guī)一化方法和拒識(shí)閾值的區(qū)間估計(jì)方法,成功地解決了文本無關(guān)的說話人確認(rèn)和開集說話人辨認(rèn)的拒識(shí)問題。在以往的研究中,我們用擬合高斯分布的方法進(jìn)行得分規(guī)一化,并用統(tǒng)計(jì)值或?qū)嶒?yàn)值作為拒識(shí)閾值⑸。這種方法雖然速度較快,但準(zhǔn)確性欠佳?;诒尘罢f話人模型差的得分規(guī)一化方法精確地描述了冒充者在高維特征空間中的分布,用區(qū)間估計(jì)方法產(chǎn)牛的拒識(shí)閾值偏差也相對(duì)較小,從而大大提高了識(shí)別的準(zhǔn)確性[g]。(1)針對(duì)說話人識(shí)別中語音能量變化和噪聲對(duì)提取有效語音數(shù)據(jù)的影響,在傳統(tǒng)時(shí)域語音切分算法山的基礎(chǔ)上,提出了3種
6、孤立詞精確切分算法和1種連續(xù)語音的非精確切分算法,它們分別是:?基于幀幅度統(tǒng)計(jì)閾值的孤立詞切分算法;這種算法能夠較好地克服各個(gè)孤立詞語音能量變化對(duì)切分的影響,實(shí)際運(yùn)用于基于隨機(jī)數(shù)字串的文木提示的說話人確認(rèn)系統(tǒng)中。?基于動(dòng)態(tài)搜索窗的孤立詞切分算法;這種算法能夠較準(zhǔn)確地區(qū)分能量較低的短時(shí)噪聲和一般孤立詞語音,實(shí)際運(yùn)用于基于姓名的文木相關(guān)的說話人確認(rèn)系統(tǒng)中。?基于幀參數(shù)規(guī)一化的孤立詞切分算法;前兩種切分算法有一個(gè)共同的缺點(diǎn),即需要較多的局部閾值和加權(quán)系數(shù),算法的相關(guān)程度較高,魯棒性較差?;趲瑓?shù)規(guī)一化的孤立詞切分算法考慮了長(zhǎng)吋語音的變化,并且相關(guān)性較低,因而
7、魯棒性較強(qiáng)。實(shí)際運(yùn)用于基于姓名的文本相關(guān)的說話人辨認(rèn)系統(tǒng)中。?基于幀信噪比統(tǒng)計(jì)閾值的連續(xù)語音切分算法。這種方法針對(duì)連續(xù)語音的說話人識(shí)別中不需要對(duì)語音進(jìn)行精確切分的特點(diǎn),舍棄那些信噪比較低的無聲幀和噪聲幀,達(dá)到數(shù)據(jù)選擇的目的。我們?cè)诨谶B續(xù)語音的文木無關(guān)的說話人確認(rèn)和辨認(rèn)系統(tǒng)中使用了這種切分算法,實(shí)驗(yàn)表明這確實(shí)是一種簡(jiǎn)便實(shí)用的方法。(2)提出了一種兩級(jí)決策的開集說話人辨認(rèn)方法。與傳統(tǒng)的開集拒識(shí)策略不同,這種方法能夠有效地降低由于僅有一個(gè)公共拒識(shí)閾值而帶來的決策風(fēng)險(xiǎn),進(jìn)而提高識(shí)別的正確率。關(guān)鍵詞:說話人確認(rèn),說話人辨認(rèn),語音切分,距離測(cè)度,背景說話人模型,得
8、分規(guī)一化,拒識(shí)閾值A(chǔ)bstractSpeakerrecognitionisake