語(yǔ)音數(shù)據(jù)與語(yǔ)音合成

語(yǔ)音數(shù)據(jù)與語(yǔ)音合成

ID:1510553

大?。?.86 MB

頁(yè)數(shù):44頁(yè)

時(shí)間:2017-11-12

語(yǔ)音數(shù)據(jù)與語(yǔ)音合成_第1頁(yè)
語(yǔ)音數(shù)據(jù)與語(yǔ)音合成_第2頁(yè)
語(yǔ)音數(shù)據(jù)與語(yǔ)音合成_第3頁(yè)
語(yǔ)音數(shù)據(jù)與語(yǔ)音合成_第4頁(yè)
語(yǔ)音數(shù)據(jù)與語(yǔ)音合成_第5頁(yè)
資源描述:

《語(yǔ)音數(shù)據(jù)與語(yǔ)音合成》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、語(yǔ)音音庫(kù)與合成江源2009-6-11語(yǔ)音合成技術(shù)什么叫語(yǔ)音合成TextToSpeech過(guò)程,簡(jiǎn)稱(chēng)TTS作用:將文本狀態(tài)的文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息———“電腦會(huì)說(shuō)話”鍵盤(pán)光電掃描手寫(xiě)識(shí)別網(wǎng)絡(luò)/數(shù)據(jù)庫(kù)文本語(yǔ)言處理韻律處理語(yǔ)音合成結(jié)果輸出詞典/規(guī)則語(yǔ)音庫(kù)發(fā)聲機(jī)理語(yǔ)音產(chǎn)生的生理過(guò)程總綱1.數(shù)字語(yǔ)音信號(hào)2.語(yǔ)音合成技術(shù)3.數(shù)據(jù)制作與合成4.合成效果測(cè)聽(tīng)數(shù)字語(yǔ)音信號(hào)什么是數(shù)字語(yǔ)音信號(hào)語(yǔ)音:說(shuō)話,聲波傳遞的語(yǔ)言語(yǔ)音信號(hào):記錄下來(lái)的聲波振動(dòng)模擬語(yǔ)音信號(hào):(磁帶,唱片)數(shù)字語(yǔ)音信號(hào):模擬信號(hào)數(shù)字化(wavmp3CD)----計(jì)算機(jī)應(yīng)用的需要如何數(shù)字化取樣:采樣率(時(shí)間尺子,8K,16K

2、,44K,每秒樣點(diǎn)數(shù)量)量化:量化精度(幅度尺子,16bit,-32767~32768范圍)數(shù)字語(yǔ)音信號(hào)取樣和量化數(shù)字語(yǔ)音信號(hào)波形不能說(shuō)明內(nèi)容數(shù)字語(yǔ)音信號(hào)頻域介紹一段任意波形可以由一系列正弦波形組合而成離散傅里葉變換數(shù)學(xué)表示:最高值,采樣率的一半(16Kwav;maxfreq=8KHz)人可聽(tīng)辨的頻率范圍:(20Hz~20kHz)電話語(yǔ)音信道的頻率范圍(60Hz~3400Hz)數(shù)字語(yǔ)音信號(hào)語(yǔ)譜圖數(shù)字語(yǔ)音信號(hào)清音和濁音濁音:聲帶的快速振動(dòng),聲帶能夠?qū)⒎€(wěn)定氣流轉(zhuǎn)換成振動(dòng)振動(dòng)頻率稱(chēng)為基頻,準(zhǔn)周期性清音:紊亂氣流,肺部氣流通過(guò)聲道中的狹窄處產(chǎn)生爆破音:突然爆破數(shù)字語(yǔ)音信號(hào)聲學(xué)特征

3、如此雜亂多變的信號(hào),如何描述,如何恢復(fù)?語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(源-濾波器模型)數(shù)字語(yǔ)音信號(hào)聲學(xué)特征基頻:發(fā)濁音時(shí)聲帶振動(dòng)引起的周期變化,我們聽(tīng)感音調(diào)高低主要由基頻決定,中文聲調(diào)還用于區(qū)分語(yǔ)義譜參數(shù):描述聲道和口唇輻射共振峰,LPC,倒譜參數(shù)總綱1.數(shù)字語(yǔ)音信號(hào)2.語(yǔ)音合成技術(shù)3.數(shù)據(jù)標(biāo)注與合成4.合成效果測(cè)聽(tīng)語(yǔ)音合成技術(shù)主流技術(shù)路線基于統(tǒng)計(jì)規(guī)則的大語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng)基于HMM的參數(shù)語(yǔ)音合成系統(tǒng)基于HMM的語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng)兩條道路:要么是波形切分再拼合起來(lái),要么是聲學(xué)參數(shù)轉(zhuǎn)化出來(lái)語(yǔ)音合成技術(shù)基于統(tǒng)計(jì)規(guī)則的大語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng)傳統(tǒng)大語(yǔ)料庫(kù)合成,InterPho

4、nic5.0之前單元挑選波形拼接超大規(guī)模音庫(kù)制作語(yǔ)料設(shè)計(jì),音庫(kù)錄制,精細(xì)切分,韻律標(biāo)注規(guī)則統(tǒng)計(jì),針對(duì)不同發(fā)音人的細(xì)致調(diào)整優(yōu)點(diǎn):音質(zhì)最佳,正常句子的自然度也很好缺點(diǎn):非常依賴(lài)音庫(kù)的規(guī)模大小和制作質(zhì)量,存在一定穩(wěn)定性問(wèn)題,不能應(yīng)用在小型設(shè)備中樣例:輸入文本拼音信息和韻律結(jié)構(gòu)信息每個(gè)單元將取多個(gè)候選s1s2s3s4目標(biāo)代價(jià)挑選候選單元詞典等文本分析知識(shí)大規(guī)模語(yǔ)音庫(kù)再考慮連接代價(jià)決定最后選定單元s1s2s3s4s5s6輸出語(yǔ)音語(yǔ)音合成技術(shù)InterPhonic系統(tǒng)處理流程語(yǔ)音合成技術(shù)基于HMM的參數(shù)語(yǔ)音合成系統(tǒng)首先進(jìn)行語(yǔ)音特征參數(shù)的提取以音素為單位(中文為聲韻母),使用HMM(H

5、iddenMarkovModel)對(duì)自然語(yǔ)流的頻譜特征參數(shù)進(jìn)行建模采用基于決策樹(shù)的聚類(lèi)方法對(duì)上下文相關(guān)模型進(jìn)行聚類(lèi),以提高模型的魯棒性,得到預(yù)測(cè)參數(shù)最后生成參數(shù)輸入合成器,得到合成語(yǔ)音優(yōu)點(diǎn):所需音庫(kù)規(guī)模小,標(biāo)注精度要求相對(duì)降低,自然度高,系統(tǒng)小,靈活度高,ViviVoice,AiSound缺點(diǎn):音質(zhì)相對(duì)較差,帶有合成器風(fēng)格樣例:語(yǔ)音合成技術(shù)參數(shù)語(yǔ)音合成系統(tǒng)框架語(yǔ)音合成技術(shù)HMM參數(shù)建模用聲學(xué)參數(shù)針對(duì)音素建模為什么要建模?描述的音素特征變化隱馬爾科夫模型(HiddenMarkovModel--HMM)語(yǔ)音合成技術(shù)決策樹(shù)模型聚類(lèi)有了模型怎么使用?來(lái)一句話怎么預(yù)知用哪個(gè)模型?基

6、于上下文的信息的決策樹(shù)聚類(lèi)語(yǔ)音合成技術(shù)基于HMM的語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng)利用HMM目標(biāo)模型和連接模型來(lái)指導(dǎo)單元挑選結(jié)合參數(shù)訓(xùn)練模型的數(shù)學(xué)統(tǒng)計(jì)模型優(yōu)勢(shì)和波形拼接的高音質(zhì),相對(duì)以前的大語(yǔ)料庫(kù)技術(shù)在自然度上有較大提升自主原發(fā),意義重大優(yōu)點(diǎn):擁有明確目標(biāo)和度量準(zhǔn)則,音質(zhì)好,自然度高,系統(tǒng)搭建自動(dòng)化程度高,InterPhonic5.5以上版本缺點(diǎn):仍然需要很大規(guī)模的語(yǔ)料庫(kù),計(jì)算量較大樣例:語(yǔ)音合成技術(shù)基于HMM的單元挑選系統(tǒng)結(jié)構(gòu)圖總綱1.數(shù)字語(yǔ)音信號(hào)2.語(yǔ)音合成技術(shù)3.數(shù)據(jù)制作與合成4.合成效果測(cè)聽(tīng)數(shù)據(jù)制作與合成數(shù)據(jù)與合成的關(guān)系音庫(kù)數(shù)據(jù)是合成系統(tǒng)的基石,離開(kāi)了音庫(kù)談合成就是“無(wú)源之

7、水無(wú)本之木”一份音庫(kù)的制作質(zhì)量,直接決定了該發(fā)音人合成系統(tǒng)的能達(dá)到什么效果數(shù)據(jù)制作與合成數(shù)據(jù)制作過(guò)程音庫(kù)設(shè)計(jì)音庫(kù)錄制音素切分韻律標(biāo)注音素檢錯(cuò)基頻修正索引制作數(shù)據(jù)制作與合成音庫(kù)設(shè)計(jì)與合成一個(gè)設(shè)計(jì)良好的音庫(kù)要有較好的音素,韻律覆蓋率廣泛的語(yǔ)料來(lái)源,保證超大規(guī)模庫(kù)的穩(wěn)定某方向定制語(yǔ)料,提升某特應(yīng)用場(chǎng)合的效果,對(duì)語(yǔ)料庫(kù)拼接技術(shù)很重要“還煩請(qǐng)大家收集更多更好的語(yǔ)料文本”數(shù)據(jù)制作與合成音庫(kù)錄制與合成錄音控制很重要錄音室環(huán)境,隔除噪音話筒的擺放,能量幅度范圍如何保持發(fā)音人的發(fā)音狀態(tài)輕松心態(tài),自然流程,不要帶情緒,除非這是情感庫(kù)適度原則,不要

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。