資源描述:
《面向情感語音轉(zhuǎn)換的韻律轉(zhuǎn)換方法-論文.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第39卷第4期聲學學報、,01.39,No.42014年7月ACTAACUSTICAJu1.,2014面向情感語音轉(zhuǎn)換的韻律轉(zhuǎn)換方法術李賢於俊(1中國科學技術大學自動化系合肥(2中國科學院合肥智能機械研究所合肥230027)(3語音及語言信息處理國家工程實驗室合肥230027)2013年3月15日收到2013年6月30日定稿摘要面向情感語音轉(zhuǎn)換,該文提出了一種韻律轉(zhuǎn)換方法。該方法包含基頻轉(zhuǎn)換和時長轉(zhuǎn)換兩個部分,前者選擇離散余弦變換(DCT)參數(shù)化基頻,根據(jù)基頻的層次結(jié)構(gòu)特點,將基頻分解為短語層和音
2、節(jié)層兩個層次,使用基于混合高斯模型(GMM)的轉(zhuǎn)換方法對兩個層次分別進行轉(zhuǎn)換;后者使用基于分類回歸樹(CART)的方法以聲韻母為基本單位對時長進行轉(zhuǎn)換。一個包含三種基本情感的語料庫用作訓練和測試,客觀評測以及主觀評測實驗結(jié)果顯示該方法可有效進行情感韻律轉(zhuǎn)換,其中悲傷情感在主觀實驗中達到了接近100%的正確率。汪PACS數(shù):43.72增;iProsodyconv福ersionformandarinemotionalvoiceconversion23LIXian,。YUJun,3WANGZengfu,
3、。,。(1Dept.ofAutomation,UniversityofScience&TechnologyofChinaHefei230027)(2InstituteofIntelligentMachines,ChineseAcademyofSciencesHei230027)(3NationalEngineeringLaboratoryofSpeechandLanguageInformationProcessingHefei230027)ReceivedMar.15,2013RevisedJun
4、.30,2013AbstractAprosodyconversionmethodwasproposedfortransformingneutralspeechtosomerequiredtargetemotion,inwhichFOWaSmodeledbYDCTandconvertedbyGMM—basedmethodatbothphraselevelandsyllableleve1.whiledurationwasconvertedbyCART-basedmethodatphonemeleve1
5、.Acorpusconsistedofthreebasisemotionswonusedfortrainingandtesting.ObjectiveevaluationandThelisteningtestresultsshowedthatourmethodcanconvertemotionalprosodyefectively,thesademotionconversionachievedaccuracyofnearly100%inlisteningtest.影響語音情感的特征包括韻律和音質(zhì)特
6、征[1]-其中韻律特征包含基頻和時長。在語音轉(zhuǎn)換領域,已經(jīng)引言有大量關于頻譜轉(zhuǎn)換的工作[2-4],這些可以直接借鑒到情感語音轉(zhuǎn)換來進行音質(zhì)轉(zhuǎn)換;然而對基頻特征隨著語音合成技術的發(fā)展,合成出高質(zhì)量的語的轉(zhuǎn)換最常使用的方法是以幀為單位的線性變換方音已經(jīng)不是一個難題,然而目前基于大語料庫的語法【引,即音合成方法并不能有效應用到情感語音合成,對于,f:+t(1)(7s情感語音,勢必需要更大的語料庫。相比較而言,語音轉(zhuǎn)換使用一個小型語料庫可實現(xiàn)從中性語音到情其中,。,t,,分別為源語音和目標語音的基感語音的
7、轉(zhuǎn)換。頻均值和標準差,由于情感語音基頻的復雜性,這并木安徽省科技攻關計劃語音專項(11010202192)、國家自然科學基金(61303150)、安徽省自主創(chuàng)新專項資金智能語音技術研發(fā)和產(chǎn)業(yè)化專項(13Z02008)和中國博士后科學基金(2012M521248)資助510聲學學報2014益不能有效的進行轉(zhuǎn)換。另外對于時長特征,采用得最文的方法將音節(jié)的濁音部分作為基頻建模的最小單多的是不進行改變或進行等比例變換。近來,已有一位,在層次上將基頻分解為短語層和音節(jié)層兩個層些關于情感韻律轉(zhuǎn)換的工作,陶建華
8、等[。]使用pitch次,分別采用DCT參數(shù)化,使用兩個GMM轉(zhuǎn)換模target模型描述基頻,基于GMM和CART的普通話型分別對短語層和音節(jié)層進行轉(zhuǎn)換?;l轉(zhuǎn)換以及對時長特征的等比變換,Chung-Hsien同時本文還對時長特征的轉(zhuǎn)換進行了初步的研、vu等【】使用層級結(jié)構(gòu)模型描述基頻,基于回歸樹聚究,以聲/韻母為基本單位,使用基于CART的方法類的普通話基頻轉(zhuǎn)換以及基于GMM的時長變換,根據(jù)輸入(中性語音)時長以及上下文特征預測輸出ZeynepInanoglu等[8]基于HMM和