語音數(shù)據(jù)與語音合成

語音數(shù)據(jù)與語音合成

ID:37542810

大小:5.86 MB

頁數(shù):44頁

時間:2019-05-12

語音數(shù)據(jù)與語音合成_第1頁
語音數(shù)據(jù)與語音合成_第2頁
語音數(shù)據(jù)與語音合成_第3頁
語音數(shù)據(jù)與語音合成_第4頁
語音數(shù)據(jù)與語音合成_第5頁
資源描述:

《語音數(shù)據(jù)與語音合成》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、語音音庫與合成江源2009-6-11語音合成技術什么叫語音合成TextToSpeech過程,簡稱TTS作用:將文本狀態(tài)的文字信息轉化為可聽的聲音信息———“電腦會說話”鍵盤光電掃描手寫識別網絡/數(shù)據(jù)庫文本語言處理韻律處理語音合成結果輸出詞典/規(guī)則語音庫發(fā)聲機理語音產生的生理過程總綱1.數(shù)字語音信號2.語音合成技術3.數(shù)據(jù)制作與合成4.合成效果測聽數(shù)字語音信號什么是數(shù)字語音信號語音:說話,聲波傳遞的語言語音信號:記錄下來的聲波振動模擬語音信號:(磁帶,唱片)數(shù)字語音信號:模擬信號數(shù)字化(wavmp3CD)

2、----計算機應用的需要如何數(shù)字化取樣:采樣率(時間尺子,8K,16K,44K,每秒樣點數(shù)量)量化:量化精度(幅度尺子,16bit,-32767~32768范圍)數(shù)字語音信號取樣和量化數(shù)字語音信號波形不能說明內容數(shù)字語音信號頻域介紹一段任意波形可以由一系列正弦波形組合而成離散傅里葉變換數(shù)學表示:最高值,采樣率的一半(16Kwav;maxfreq=8KHz)人可聽辨的頻率范圍:(20Hz~20kHz)電話語音信道的頻率范圍(60Hz~3400Hz)數(shù)字語音信號語譜圖數(shù)字語音信號清音和濁音濁音:聲帶的快速振

3、動,聲帶能夠將穩(wěn)定氣流轉換成振動振動頻率稱為基頻,準周期性清音:紊亂氣流,肺部氣流通過聲道中的狹窄處產生爆破音:突然爆破數(shù)字語音信號聲學特征如此雜亂多變的信號,如何描述,如何恢復?語音信號產生的數(shù)字模型(源-濾波器模型)數(shù)字語音信號聲學特征基頻:發(fā)濁音時聲帶振動引起的周期變化,我們聽感音調高低主要由基頻決定,中文聲調還用于區(qū)分語義譜參數(shù):描述聲道和口唇輻射共振峰,LPC,倒譜參數(shù)總綱1.數(shù)字語音信號2.語音合成技術3.數(shù)據(jù)標注與合成4.合成效果測聽語音合成技術主流技術路線基于統(tǒng)計規(guī)則的大語料庫拼接語音合

4、成系統(tǒng)基于HMM的參數(shù)語音合成系統(tǒng)基于HMM的語料庫拼接語音合成系統(tǒng)兩條道路:要么是波形切分再拼合起來,要么是聲學參數(shù)轉化出來語音合成技術基于統(tǒng)計規(guī)則的大語料庫拼接語音合成系統(tǒng)傳統(tǒng)大語料庫合成,InterPhonic5.0之前單元挑選波形拼接超大規(guī)模音庫制作語料設計,音庫錄制,精細切分,韻律標注規(guī)則統(tǒng)計,針對不同發(fā)音人的細致調整優(yōu)點:音質最佳,正常句子的自然度也很好缺點:非常依賴音庫的規(guī)模大小和制作質量,存在一定穩(wěn)定性問題,不能應用在小型設備中樣例:輸入文本拼音信息和韻律結構信息每個單元將取多個候選s1

5、s2s3s4目標代價挑選候選單元詞典等文本分析知識大規(guī)模語音庫再考慮連接代價決定最后選定單元s1s2s3s4s5s6輸出語音語音合成技術InterPhonic系統(tǒng)處理流程語音合成技術基于HMM的參數(shù)語音合成系統(tǒng)首先進行語音特征參數(shù)的提取以音素為單位(中文為聲韻母),使用HMM(HiddenMarkovModel)對自然語流的頻譜特征參數(shù)進行建模采用基于決策樹的聚類方法對上下文相關模型進行聚類,以提高模型的魯棒性,得到預測參數(shù)最后生成參數(shù)輸入合成器,得到合成語音優(yōu)點:所需音庫規(guī)模小,標注精度要求相對降低,

6、自然度高,系統(tǒng)小,靈活度高,ViviVoice,AiSound缺點:音質相對較差,帶有合成器風格樣例:語音合成技術參數(shù)語音合成系統(tǒng)框架語音合成技術HMM參數(shù)建模用聲學參數(shù)針對音素建模為什么要建模?描述的音素特征變化隱馬爾科夫模型(HiddenMarkovModel--HMM)語音合成技術決策樹模型聚類有了模型怎么使用?來一句話怎么預知用哪個模型?基于上下文的信息的決策樹聚類語音合成技術基于HMM的語料庫拼接語音合成系統(tǒng)利用HMM目標模型和連接模型來指導單元挑選結合參數(shù)訓練模型的數(shù)學統(tǒng)計模型優(yōu)勢和波形拼接

7、的高音質,相對以前的大語料庫技術在自然度上有較大提升自主原發(fā),意義重大優(yōu)點:擁有明確目標和度量準則,音質好,自然度高,系統(tǒng)搭建自動化程度高,InterPhonic5.5以上版本缺點:仍然需要很大規(guī)模的語料庫,計算量較大樣例:語音合成技術基于HMM的單元挑選系統(tǒng)結構圖總綱1.數(shù)字語音信號2.語音合成技術3.數(shù)據(jù)制作與合成4.合成效果測聽數(shù)據(jù)制作與合成數(shù)據(jù)與合成的關系音庫數(shù)據(jù)是合成系統(tǒng)的基石,離開了音庫談合成就是“無源之水無本之木”一份音庫的制作質量,直接決定了該發(fā)音人合成系統(tǒng)的能達到什么效果數(shù)據(jù)制作與合成

8、數(shù)據(jù)制作過程音庫設計音庫錄制音素切分韻律標注音素檢錯基頻修正索引制作數(shù)據(jù)制作與合成音庫設計與合成一個設計良好的音庫要有較好的音素,韻律覆蓋率廣泛的語料來源,保證超大規(guī)模庫的穩(wěn)定某方向定制語料,提升某特應用場合的效果,對語料庫拼接技術很重要“還煩請大家收集更多更好的語料文本”數(shù)據(jù)制作與合成音庫錄制與合成錄音控制很重要錄音室環(huán)境,隔除噪音話筒的擺放,能量幅度范圍如何保持發(fā)音人的發(fā)音狀態(tài)輕松心態(tài),自然流程,不要帶情緒,除非這是情感庫適度原則,不要

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。