資源描述:
《語(yǔ)音識(shí)別發(fā)展現(xiàn)狀與展望》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、中國(guó)中文信息學(xué)會(huì)第七次全國(guó)會(huì)員代表大會(huì)暨學(xué)會(huì)成立30周年學(xué)術(shù)會(huì)議語(yǔ)音識(shí)別發(fā)展現(xiàn)狀與展望中科院自動(dòng)化研究所徐波2011年12月4日?qǐng)?bào)告提綱?語(yǔ)音識(shí)別技術(shù)現(xiàn)狀及態(tài)勢(shì)?語(yǔ)音識(shí)別技術(shù)的行業(yè)應(yīng)用?語(yǔ)音識(shí)別技術(shù)研究方向?結(jié)論與展望2010年始語(yǔ)音識(shí)別重新成為產(chǎn)業(yè)熱點(diǎn)?移動(dòng)互聯(lián)網(wǎng)的興起成為ASR最重要的應(yīng)用環(huán)境。在Google引領(lǐng)下,互聯(lián)網(wǎng)、通信公司紛紛把語(yǔ)音識(shí)別作為重要研究方向–Android系統(tǒng)內(nèi)嵌語(yǔ)音識(shí)別技術(shù),Google語(yǔ)音翻譯等;–iPhone4S上的Siri軟件;–百度、騰訊、盛大、華為等都進(jìn)軍語(yǔ)音識(shí)別領(lǐng)域;–我國(guó)語(yǔ)音技術(shù)
2、領(lǐng)軍企業(yè)訊飛2010年推出語(yǔ)音云識(shí)別、訊飛口訊–已有的QQ2011版語(yǔ)音輸入等等成熟度分析-技術(shù)成熟度曲線?美國(guó)市場(chǎng)調(diào)查咨詢公司Gartner于2011年7月發(fā)布《2011新興技術(shù)成熟度曲線》報(bào)告:成熟度分析-新興技術(shù)優(yōu)先矩陣?Gartner評(píng)出了2011年具有變革作用的技術(shù),包括語(yǔ)音識(shí)別、語(yǔ)音翻譯、自然語(yǔ)言問(wèn)答等。其中語(yǔ)音翻譯和自然語(yǔ)言問(wèn)答有望在5-10年內(nèi)獲得大幅利用,而語(yǔ)音識(shí)別有望在2-5年內(nèi)獲得大幅利用;三十年語(yǔ)音識(shí)別技術(shù)發(fā)展---特征提取與知識(shí)方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA,f
3、MPE,neuralnet-basedfeatures?前端優(yōu)化–融入更多特征信息(MLP、TrapNN、BottleNeckFeatures等)?特征很大特點(diǎn)有些是跟模型的訓(xùn)練算法相匹配?大規(guī)模FSN圖表示,把各種知識(shí)源集中在一起–bigramvs.4-gram,withinworddependenciesvs.cross-word三十年語(yǔ)音識(shí)別技術(shù)發(fā)展---模型與算法?統(tǒng)計(jì)模型HMM–EM、MAP/MLLR自適應(yīng)–MMIE、MPE、fMPE訓(xùn)練(2005)–boostedMMIE(bMMIE)訓(xùn)練(2008)–基于最
4、大邊距(Largemargin)分類的區(qū)分度訓(xùn)練(2004-2008)?優(yōu)化模型精度–聲學(xué)上下文建模?Quinphone(五音子)、Septaphone(七音子)–方差建模(SPAM、EMLLT、全方差建模等)–SubspaceGMM(SGMM)建模(2009)?提出了更好的聲學(xué)數(shù)據(jù)共享機(jī)制三十年語(yǔ)音識(shí)別技術(shù)發(fā)展---搜索?A*搜索?Viterbi搜索?多遍(Multi-pass)識(shí)別?多系統(tǒng)融合(ROVER)技術(shù)三十年語(yǔ)音識(shí)別技術(shù)發(fā)展---ASR開(kāi)放源碼工具?HTK為基礎(chǔ)的聲學(xué)模型建模技術(shù)–劍橋大學(xué)的HTK(v3.4.
5、1)?LM模型建模技術(shù)–從傳統(tǒng)的SRI的SRILM(v1.5)–到能夠處理更大規(guī)模語(yǔ)料的?微軟的MSRLM(v0.1)?以及意大利IRST實(shí)驗(yàn)室的IRSTLM(v5.6)?FSN以及解碼技術(shù)–MIT的LibFST(v1.4.0)–Google的OpenFST(v1.2.7)大詞匯量連續(xù)語(yǔ)音識(shí)別技術(shù)發(fā)展概況---在電話、會(huì)議等復(fù)雜環(huán)境中目前英語(yǔ)識(shí)別率準(zhǔn)確率在80%左右,離人類2%-4%的錯(cuò)誤率還有很大距離Moore定理及應(yīng)用服務(wù)驅(qū)動(dòng)計(jì)算能力和方式的改變?云計(jì)算主要特征–低成本:一堆廉價(jià)的機(jī)器,但數(shù)量龐大;–虛擬化技術(shù):使用
6、者感覺(jué)只面對(duì)一臺(tái)機(jī)器;–并行計(jì)算結(jié)構(gòu):程序必須支持并行計(jì)算?云計(jì)算類型–公有云:對(duì)外提供計(jì)算和存儲(chǔ)服務(wù)等,utility;–私有云:對(duì)外提供應(yīng)用服務(wù),但滿足低成本、虛擬化以及并行化等特點(diǎn);?云計(jì)算vs.集群:–虛擬化技術(shù)+并行計(jì)算;–在云之上的應(yīng)用服務(wù)開(kāi)發(fā)更加規(guī)范和形式化;語(yǔ)音模式識(shí)別的云服務(wù)優(yōu)勢(shì)?在用戶層面上,云端向終端提供了革命性的計(jì)算和存儲(chǔ)能力;?對(duì)于運(yùn)營(yíng)商而言,云服務(wù)運(yùn)營(yíng)還非常易于獲得海量有標(biāo)簽的訓(xùn)練樣本,從而幫助研究人員持續(xù)改進(jìn)識(shí)別性能。?云語(yǔ)音更將挑戰(zhàn)“發(fā)音習(xí)慣,用詞習(xí)慣”等傳統(tǒng)技術(shù)難以解決的技術(shù)難點(diǎn),為用戶
7、帶來(lái)全新的,極簡(jiǎn)的溝通體驗(yàn)。傳統(tǒng)語(yǔ)音識(shí)別研究關(guān)心的問(wèn)題?語(yǔ)音識(shí)別特征,是否足夠魯棒??語(yǔ)音識(shí)別模型,是否足夠魯棒并具有可區(qū)分性;?語(yǔ)言模型,是否具有足夠的覆蓋度以及可回退性??語(yǔ)音識(shí)別搜索,是否能盡量較少搜索誤差并提高搜索效率??………云計(jì)算減少了語(yǔ)音識(shí)別計(jì)算約束?應(yīng)用場(chǎng)景產(chǎn)生很大變化–移動(dòng)互聯(lián)網(wǎng)環(huán)境下的應(yīng)用---語(yǔ)音、語(yǔ)言自適應(yīng)和個(gè)性化模型變得非常關(guān)鍵;?語(yǔ)音識(shí)別(包括中文信息處理)技術(shù)新出發(fā)點(diǎn):三個(gè)近乎Unlimited–計(jì)算量可以是unlimited---窮舉式搜索;–存儲(chǔ)量可以是unlimited---無(wú)損失存儲(chǔ)
8、;–數(shù)據(jù)量可以使unlimited---海量用戶數(shù)據(jù);云計(jì)算環(huán)境下ASR研究目標(biāo)?云計(jì)算環(huán)境下具有強(qiáng)大個(gè)性化用戶自適應(yīng)能力的識(shí)別計(jì)算架構(gòu)–自適應(yīng)算法(尤其是語(yǔ)言自適應(yīng))?云計(jì)算環(huán)境下大群體用戶的智慧集成–超級(jí)語(yǔ)音數(shù)據(jù)中心和模型中心–需要Semi-supervised標(biāo)注能力?核心是如何利用好云中心的數(shù)據(jù)并迅速轉(zhuǎn)化為模