資源描述:
《基于隱馬爾可夫模型的跨語種語音合成研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、隸劫大·粵碩士學(xué)位論文萬方數(shù)據(jù)基于隱馬爾可夫模型的跨語種語音合成研究萬方數(shù)據(jù)ResearchonHMM..basedCross-·LingualSpeechSynthesisDissertationSubmittedtoSoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBYFUHaiyanSupervisedbyProfessorZHAOLiSchoolofInformationScience&EngineeringSoutheastUniversityApril2014萬方數(shù)據(jù)東南大學(xué)學(xué)位論
2、文獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得東南大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。研究生簽名:互戛i縫日期:墜!里:三:!蘭東南大學(xué)學(xué)位論文使用授權(quán)聲明東南大學(xué)、中國科學(xué)技術(shù)信息研究所、國家圖書館有權(quán)保留本人所送交學(xué)位論文的復(fù)印件和電子文檔,可以采用影印、縮印或其他復(fù)制手段保存論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。
3、除在保密期內(nèi)的保密論文外,允許論文被查閱和借閱,可以公布(包括以電子信息形式刊登)論文的全部內(nèi)容或中、英文摘要等部分內(nèi)容。論文的公布(包括以電子信息形式刊登)授權(quán)東南大學(xué)研究生院辦理。研究生簽名:邀導(dǎo)師萬方數(shù)據(jù)摘要捅要隨著國際化社會的發(fā)展,僅僅一種語言已不能滿足不同語言國家的人們之間的交流需求,而且并不是每個人都能短時間內(nèi)熟練掌握多種語言,故而跨語種語音合成的產(chǎn)品應(yīng)用需求急劇增加。隨著統(tǒng)計參數(shù)語音合成技術(shù)的發(fā)展,尤其是基于HMM的語音合成技術(shù),跨語種語音合成的研究取得了一定的進(jìn)展。若想將跨語種語音合成應(yīng)用于產(chǎn)品中,必須構(gòu)建一個速度快、精簡的語音合成系統(tǒng),而實際上
4、滿足要求的中英文語音合成系統(tǒng)較少。對于特定說話人的跨語種語音的合成,有研究者提出的基于音素的跨語種語音合成技術(shù),來解決語料短缺的問題。雖然它能夠合成特定說話人跨語種語音,但是對于中英文來說,兩種語言的音素差異太大,合成語音的效果不盡人意。而后來有人提出基于狀態(tài)映射的跨語種語音合成方法,效果較好,該方法具有很大的研究與應(yīng)用價值。本文在前人的研究成果基礎(chǔ)上,主要做了以下一些工作:(1)本文以Flite+htsengine為參考,在分析文本分析的各個模塊的基礎(chǔ)上,對英文合成軟件Flite+htsengine進(jìn)行了一定的改進(jìn),包括文本預(yù)處理、句子結(jié)構(gòu)調(diào)整以及數(shù)字化處理等
5、等。改進(jìn)后的系統(tǒng),在保證合成語音質(zhì)量幾乎不變的情況下,減少了整個系統(tǒng)運行所需的內(nèi)存空間,運行速度更快、系統(tǒng)占用空間更小,是嵌入式平臺下英文語音合成的一種更好的選擇。(2)本文在SYN6658的中文TTS的基礎(chǔ)上,結(jié)合改進(jìn)的英文合成技術(shù),經(jīng)過分析比較中文TTS和英文TTS的特性之后,提出了一種構(gòu)建簡單快速、占用空間小的中英文語音合成系統(tǒng)的方法。構(gòu)建的中英文語音合成系統(tǒng)能夠?qū)崟r快速地合成出中英文語音,系統(tǒng)簡單、易實現(xiàn)且合成效果較好,是中英文語音合成產(chǎn)品的較好選擇。(3)本文以基于狀態(tài)映射的中英跨語種自適應(yīng)方法為研究對象,比較分析了MLLR、CMLLR、SMAPLR即
6、CSMAPLR算法的性能,然后將狀態(tài)映射應(yīng)用于跨語種自適應(yīng)中,并對自適應(yīng)中兩種使用狀態(tài)映射信息的方式進(jìn)行了比較分析。通過實驗發(fā)現(xiàn),基于狀態(tài)映射的自適應(yīng)方法具有一定的效果,CSMAPLR算法優(yōu)于CMLLR算法,而且兩種方式各有優(yōu)劣。變換映射的方式能實現(xiàn)更好的語音音質(zhì),對原始的兩個語言模型說話人特征的一致性有較高要求,而數(shù)據(jù)映射的方式可達(dá)到更高的說話人相似度。關(guān)鍵詞:語音合成;隱馬爾可夫模型;跨語種自適應(yīng);文語轉(zhuǎn)換系統(tǒng);混合語音合成萬方數(shù)據(jù)AbstractWiththedevelopmentofinternationalsociety,peoplecan’tcomm
7、unicatewithothersfromdifferentcountriesonlywithasinglekindoflanguage.AndnoteveryoneCanbecomeamulti.1anguagespeakerinashorttime.Therefore,itiSmoreandmoreurgentforpeopletousingaproducttosynthesisvoiceneeded.Alongwithdevelopingthetechnologyofstatisticalparametricspeechsynthesis,especial
8、lytheoneofHM