資源描述:
《基于htk漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、UniversityofScienceandTechnologyofChinaAdissertationformaster’SdegreeStudyonChineseContinuousSpeechRecognitionBasedonHTKAuthor’SName"JinxinHespeciality:Pattemrecognitionandintelligentsystem一,一Supervisor:AssociateProf.ShenxiaoGuan11●1’上.mlstmdtlme:May2m,2013中國(guó)科學(xué)技術(shù)大學(xué)學(xué)
2、位論文原創(chuàng)性聲明本人聲明所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工作所取得的成果。除已特別加以標(biāo)注和致謝的地方外,論文中不包含任何他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果。與我--N二II作的同志對(duì)本研究所做的貢獻(xiàn)均已在論文中作了明確的說(shuō)明。作者簽名:彳擻簽字日期:絲叢!絲:雛中國(guó)科學(xué)技術(shù)大學(xué)學(xué)位論文授權(quán)使用聲明作為申請(qǐng)學(xué)位的條件之一,學(xué)位論文著作權(quán)擁有者授權(quán)中國(guó)科學(xué)技術(shù)大學(xué)擁有學(xué)位論文的部分使用權(quán),即:學(xué)校有權(quán)按有關(guān)規(guī)定向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱,可以將學(xué)位論文編入《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》
3、等有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。本人提交的電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。保密的學(xué)位論文在解密后也遵守此規(guī)定。啦仫開口保密(——年)作者簽名:么勇益龐導(dǎo)師簽名:簽字日期:絲廛!魚!生簽字日期:2望!至:笸顰摘要自動(dòng)語(yǔ)音識(shí)別(ASR,AutomaticSpeechRecognition)是通過(guò)機(jī)器識(shí)別和理解過(guò)程,把人類的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語(yǔ)音識(shí)別技術(shù)是一門綜合技術(shù),融合聲學(xué)、語(yǔ)音學(xué)、語(yǔ)義學(xué)、信號(hào)處理、心理學(xué),經(jīng)過(guò)近60年的發(fā)展,已經(jīng)取得了很大的進(jìn)展。目前在特定
4、領(lǐng)域已經(jīng)能夠達(dá)到應(yīng)用的程度,但是要實(shí)現(xiàn)大詞匯量連續(xù)語(yǔ)音識(shí)別還有很多難點(diǎn)有待攻克,尤其是在說(shuō)話人無(wú)關(guān)、高噪音的環(huán)境下,識(shí)別準(zhǔn)確度明顯下降。本文主要研究漢語(yǔ)連續(xù)語(yǔ)音識(shí)別中涉及的關(guān)鍵技術(shù)。建立語(yǔ)音識(shí)別系統(tǒng)的基本流程,語(yǔ)音信號(hào)處理的基本理論,著重研究了端點(diǎn)檢測(cè)方法、特征提取原理及方法。然后分別從兩個(gè)角度闡述漢語(yǔ)連續(xù)語(yǔ)音識(shí)別過(guò)程:模式識(shí)別角度和基于HTK的軟件識(shí)別過(guò)程。首先,研究了漢語(yǔ)語(yǔ)音的特點(diǎn)。漢語(yǔ)屬于東方語(yǔ)系,在字形、發(fā)音方式方面與英語(yǔ)等西歐語(yǔ)系差別很大,因此要建立高質(zhì)量的語(yǔ)音識(shí)別系統(tǒng)需要對(duì)漢語(yǔ)語(yǔ)音的特點(diǎn)進(jìn)行深入研究。本文是基于隱馬
5、爾科夫模型(HMM)的連續(xù)語(yǔ)音識(shí)別,特征向量采用美爾倒譜系數(shù)(MFCC),基于上下文相關(guān)的三音素HUM,結(jié)合漢語(yǔ)特有的聲韻母加聲調(diào)的發(fā)音方式等一系列技術(shù),利用隱馬爾科夫模型工具箱(HTK)構(gòu)建了實(shí)驗(yàn)平臺(tái)。設(shè)計(jì)實(shí)驗(yàn)比較了不同高斯混合度(Mix)和不同音素模型下系統(tǒng)的表現(xiàn)性能。實(shí)驗(yàn)結(jié)果表明,采用上下文相關(guān)三音素模型識(shí)別精度達(dá)到98.00%,識(shí)別效果明顯。其次,利用HTK工具包,設(shè)計(jì)實(shí)現(xiàn)了漢語(yǔ)連續(xù)語(yǔ)音識(shí)別模擬系統(tǒng)。本文介紹了HTK軟件包架構(gòu)及提供的模型分析工具,利用其接口應(yīng)用程序ATK(AnApplicationToolkitfor
6、HTK)實(shí)現(xiàn)漢語(yǔ)連續(xù)識(shí)別系統(tǒng)并進(jìn)行相關(guān)測(cè)試。關(guān)鍵詞:語(yǔ)音識(shí)別HTK隱馬爾科夫模型決策樹狀態(tài)綁定三音素模型IIABSTRACTAutomaticspeechrecognition(ASR)isatechnologywhichtralls南rIllshu曲ntsmtⅦalspeechintocorrespondingtextorcommandbyidertifyingandunderstandingthecontentofthediscourse.Ifsacomplexart沁砌噸acoustics,phonetics,se艘Im
7、lcs,signalprocessing,psychology.Ithasobtainedagreatdevelopmentduringthepast60years.Currently,it'spracticableinspecializedfield.Therefore,there鋤℃stillsomedifficultiestobetreated.Undertheenvironmentofperson-協(xié)depeI】dem,∞isMtherecognitionaceuracydeclinerapidly.Inthethes
8、is,theamhordoessomeresearchinthecriticaltechnologYofcontinuousspeechrecognition:buildingthespeechrecognitionsystemwithbasicflowchart,learn