資源描述:
《維吾爾語基于音素的波形拼接語音合成技術(shù)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、維吾爾語基于音素的波形拼接語音合成技術(shù)摘要:讓計算機(jī)朗讀文章是多媒體技術(shù)應(yīng)用的重要組成部分。在國內(nèi)外實(shí)現(xiàn)高自然度和可懂度的語音合成系統(tǒng)是每一個做語音合成系統(tǒng)的人來說是一理想的目標(biāo)。維吾爾語文本—基于音素的波形拼接語音合成技術(shù)的任務(wù)是把維吾爾語文本逐句轉(zhuǎn)化為維吾爾語語音輸出,其用處非常廣泛。目前比較好的維吾爾語語音合成技術(shù)采用以音節(jié)為合成單元的合成技術(shù)。 關(guān)鍵詞:語音庫語句結(jié)構(gòu)分析語音編輯與合成 :TN912:A:1672-3791(2011)01(c)-0005-01 1維吾爾語字母語法特征及其合成技術(shù) 1.1維吾爾語字母語法特征 維吾爾語是由
2、32個字母相互拼接而成的(即維吾爾語共有32個字母),其中8個元音字母,,,,,,,24個輔音字母,,,,,,,,,,,,,,,,,,,,,,,?! ?1)發(fā)音時帶顫動,氣流通過口腔時不受阻礙而由發(fā)音器官調(diào)節(jié)發(fā)出的音叫做元音。(2)發(fā)音時氣流通過口腔且受到阻礙發(fā)出的音叫做輔音。其中元音字母發(fā)音比較長,輔音字母發(fā)音比較短。由此而組成的單詞,詞組,句子成分以及完整的句子都比較穩(wěn)定。字母拼接成詞時按原來的字母讀音拼接讀就可以了。(3)可以避免在實(shí)現(xiàn)此系統(tǒng)時由文字和其讀音不同而帶來的麻煩。(4)與漢語不同的,聲調(diào)在維吾爾語使用的頻率很少,抑或其用途不多?! ⊥ㄟ^觀察
3、維吾爾語語音的音聯(lián)現(xiàn)象,音素在時間上連接緊密,在特性上相互影響。而在相鄰音詞匯上影響逐級減弱。音素雖然是發(fā)出各種不同音的最小單位,且用它作合成單元,具有存儲容量小的優(yōu)點(diǎn),但是選擇它作為合成單元,語音中復(fù)雜多變的細(xì)微韻律特征難以總結(jié)和表現(xiàn),會導(dǎo)致自然度不理想。維吾爾語語音中音節(jié)聽辨特征明顯,而且音節(jié)數(shù)量確定。選擇音節(jié)作為合成基元,能保證語音庫的容量不會過大,且可以合成無限制維吾爾語文本。所以音節(jié)比音素更適合作為維吾爾語的合成基元。但是此次設(shè)計主要目的是在語料庫的體積不太膨脹的情況下采用并不復(fù)雜的算法,較短的開發(fā)周期內(nèi)達(dá)到較好的效果。所以在以音素為基礎(chǔ)的語料庫為
4、主庫,在附加用來提高合成效果的語料庫?! ?.2合成技術(shù)的應(yīng)用 維吾爾族是我國56個民族之一,開發(fā)本項目對我國信息化程度的提高有所貢獻(xiàn),同樣實(shí)現(xiàn)了這個項目有助于對以后的相關(guān)項目或人工智能等項目的進(jìn)行。對實(shí)現(xiàn)人機(jī)對話打下基礎(chǔ)。在開發(fā)的過程當(dāng)中提取并收集一定的開發(fā)經(jīng)驗,便于以后版本質(zhì)量的提高?! ‰p語與雙語教育是當(dāng)今多民族、多語言國家和地區(qū)普遍關(guān)注的社會問題。新疆維吾爾自治區(qū)地處祖國西北邊陲,面積166萬平方公里,占全國總面積的六分之一,是我國最大的省級行政區(qū),是一個多民族、多語種地區(qū)。全區(qū)現(xiàn)有40多個民族,其中世居的有維吾爾、漢、哈薩克等13個民族。根據(jù)20
5、04年的統(tǒng)計全區(qū)人口有1963.11萬人,其中少數(shù)民族人口1182.86萬人,占全區(qū)人口的60.5%。根據(jù)《中華人民共和國憲法》和《民族區(qū)域自治法》中的有關(guān)規(guī)定:政府通用自治民族文字和漢文行文,維吾爾、漢、哈薩克、蒙古、柯爾克孜語文,為自治區(qū)人代會的正式工作語言?! ≌Z音合成技術(shù)在快速信息化的今天帶有實(shí)際應(yīng)用價值:(1)在我們不方便看文本信息的時候可以利用語音合成系統(tǒng)收到電子郵件和新聞內(nèi)容。(2)語音合成系統(tǒng)可以幫助有視覺障礙的人使用計算機(jī)。(3)語音合成系統(tǒng)可以使人真正的人機(jī)對話式用戶界面成為可能。(4)語音合成系統(tǒng)母語不是維語的民族學(xué)語言的工具。(5)語
6、音合成系統(tǒng)通信系統(tǒng)中朗讀短信等通信專業(yè)。(6)語音合成系統(tǒng)數(shù)字電視、數(shù)字電影等靠衛(wèi)星X絡(luò)系統(tǒng)的專業(yè)。(7)語音合成系統(tǒng)可以使人真正的人機(jī)對話式用戶界面成為可能?! ‘?dāng)前語音合成的研究已經(jīng)進(jìn)入了文字—語音轉(zhuǎn)換(TTS)階段,其功能模塊可分為文本分析、韻律建模和語音合成三大模塊。其中,語音合成是TTS系統(tǒng)中最基本,最重要的模塊。總的來說,語音合成的主要功能是:根據(jù)韻律建模的結(jié)構(gòu),從原始語音庫中取出相應(yīng)的語音基元,利用特定語音合成技術(shù)對語音基元進(jìn)行韻律特性的調(diào)整和修改,最終合成出符合要求的語音?! ∧壳俺S玫恼Z音合成技術(shù)主要有:共振峰合成,LPC合成,PSOLA拼
7、接合成和LMA聲道模型技術(shù)他們各有各的優(yōu)缺點(diǎn),人們在應(yīng)用過程中往往將多種技術(shù)有機(jī)的結(jié)合在一起,或?qū)⒁环N技術(shù)的優(yōu)點(diǎn)運(yùn)用到另一種技術(shù)上,以克服另一種技術(shù)的不足?! ?.3聲音庫建立的思想 維吾爾語是一個復(fù)雜的聲調(diào)系統(tǒng),在維吾爾語中一個音節(jié)里至少有一個元音和若干個輔音。如果用這種音節(jié)來建立聲音庫,則聲音庫體積龐大,算法復(fù)雜。因此,以音素為基礎(chǔ)建立維吾爾聲音庫,用此方法建立聲音庫能大大減少聲音庫的體積?! ?維吾爾語聲音庫建立的方法 我們的研究方向是:基于音素的波形拼接語音合成技術(shù)。因此,我們以音素為單位建立聲音庫來實(shí)現(xiàn)波形拼接語音合成技術(shù)。第一種方法,以元
8、音字母為主的8個元音字母聲音庫。第二種方法,以輔音字