資源描述:
《基于漢語元音映射的說話人識別技術(shù)研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、南京理工大學(xué)博士學(xué)位論文基于漢語元音映射的說話人識別技術(shù)研究姓名:錢博申請學(xué)位級別:博士專業(yè):模式識別與智能系統(tǒng)指導(dǎo)教師:唐振民20071101博士論文基于漢語元音映射的說話人識別技術(shù)研究摘要語音是人類獲取信息的主要來源之一,也是最方便、最有效、最自然的交流工具。說話人識別技術(shù)在近三十多年的時(shí)間里取得了很大的進(jìn)步,這種技術(shù)的應(yīng)用為人類的日常生活帶來很大的便利。但是,隨著說話人識別的實(shí)用化,不同應(yīng)用領(lǐng)域?qū)ζ湟笠苍絹碓礁?。一方面,發(fā)音的多變性使說話人識別系統(tǒng)的適應(yīng)性還有待提高;另一方面,噪聲、訓(xùn)練時(shí)間以及通信信道失真等問題也會產(chǎn)生很大的影響。對于說話人識別來說,最主要的兩個問題是如何從語音中提取
2、單純反映說話人身份信息的魯棒特征,以及如何建立有效的識別模型達(dá)到實(shí)際應(yīng)用中對速度、數(shù)據(jù)量、使用條件等方面的要求。本文針對漢語語音的特點(diǎn),從分離身份信息和提高系統(tǒng)魯棒性兩個方面出發(fā)對漢語說話人識別展開研究,提出了新的說話人識別框架、模型和算法,主要取得了以下創(chuàng)新性成果。本文的核心是提出了一種新的基于漢語元音映射的說話人識別框架。該框架的基礎(chǔ)是將漢語韻母中的元音部分以單元音音素為單位進(jìn)行分解,對此我們使用頻譜對比、特征對比、單元音滑動統(tǒng)計(jì)分布、分類器識別率等方式證實(shí)了從短時(shí)幀角度出發(fā),漢語韻母可以分解為單元音音素的組合,并通過大量的實(shí)驗(yàn)建立了漢語韻母到單元音的映射表。相對于傳統(tǒng)的說話人識別模型,新
3、框架增加了漢語單元音音素分類模塊進(jìn)行韻母分解,并將多個針對單元音的說話人識別器組織起來代替?zhèn)鹘y(tǒng)的匹配或統(tǒng)計(jì)模塊對幀特征進(jìn)行處理。根據(jù)這個框架,每個針對單元音的說話人識別器進(jìn)行說話人識別時(shí)避免了語義信息的干擾,增強(qiáng)了分類的針對性;同時(shí),整個系統(tǒng)以短時(shí)幀作為基本識別單位,更易于達(dá)到實(shí)時(shí)處理的目標(biāo)。根據(jù)基于漢語元音映射的說話人識別框架,提出了基于漢語元音分類的矢量量化說話人識別方法。由于每個矢量量化分類器在訓(xùn)練和識別過程中避免了語義信息的影響,該方法利用較小的碼本就可以獲得較高的識別率。然而,為了保證碼本質(zhì)量,需要大量的訓(xùn)練數(shù)據(jù)和識別數(shù)據(jù)。針對說話人識別方法需要大量數(shù)據(jù)參與訓(xùn)練和識別的缺點(diǎn),結(jié)合新框
4、架,本文又提出了基于仿生模式識別的漢語說話人識別方法。該方法在訓(xùn)練過程中為每個說話人的每個單元音音素幀特征在特征空間中建立一個包絡(luò):識別時(shí)通過分析測試幀特征與包絡(luò)的關(guān)系進(jìn)行判決,大大縮減了對訓(xùn)練和識別數(shù)據(jù)量的需求。在研究過程中,我們發(fā)現(xiàn)基于漢語元音映射的說話人識別框架由于增加了單元音分類模塊,會帶來分類誤差并導(dǎo)致識別速度下降。對此,結(jié)合集成學(xué)習(xí)理論,我們提出了基于漢語元音映射的神經(jīng)網(wǎng)絡(luò)集成說話人識別方法。該方法在識別過程中不需要預(yù)先對測試語音幀進(jìn)行元音分類,省略了元音分類模塊,從而避免引入元音分類誤摘要博士論文差,加快了識別速度。此外,針對新的說話人識別框架的特點(diǎn),本文在預(yù)處理和抗噪方面也進(jìn)行
5、了研究和改進(jìn),主要包括:提出了基于頻譜特征的自適應(yīng)元音幀提取算法,在損失端點(diǎn)檢測準(zhǔn)確性的前提下提高元音幀提取的速度和正確率;結(jié)合諧波積譜思想改進(jìn)了基音提取算法:提出了基于背景估計(jì)的自適應(yīng)抗噪方法,實(shí)現(xiàn)GMM模型下數(shù)據(jù)噪聲背景不同時(shí)特征的提取、修正和識別;針對測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)背景不同的情況,從特征值處理和模型補(bǔ)償兩方面考慮,提出了基于高斯混合模型的加權(quán)特征補(bǔ)償變換的抗噪方法,進(jìn)一步改善了系統(tǒng)的性能。從本文一系列仿真實(shí)驗(yàn)的結(jié)果分析可得,基于本文新框架、模型和算法實(shí)現(xiàn)的說話人識別系統(tǒng)在識別率、識別速度和抗噪能力上都有所提高。特別是基于漢語元音分類的思想為分離語音特征中的語義信息和話者身份信息,將文
6、本無關(guān)的說話人識別轉(zhuǎn)變?yōu)槲谋居嘘P(guān)的說話人識別提供了新的思路。關(guān)鍵字:說話人識別、元音分類、漢語元音映射、矢量量化、仿生識別、BP神經(jīng)網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)集成、元音幀檢測、基音頻率、噪聲處理技術(shù)、高斯混合模型、特征補(bǔ)償ⅡAbstractSpeechisthemostconvenient,fastandnaturaltooltocommunicatewithotherpeople.Inrecent岫years,alongwiththedevelopmentofscienceandtechnology.theresearchofspeakerrecognitiontechniquehasachievedm
7、anyproductions,whichwillbringUSmoreconveniencein0111"dailylife.However,indifferentapplication,thestandardsandrequirementsbecomemuchmorehigherandthesystemissusceptibletodifferentinfluence.Ononehand,spe