語音識別發(fā)展現(xiàn)狀與展望

語音識別發(fā)展現(xiàn)狀與展望

ID:5282111

大小:1.30 MB

頁數(shù):45頁

時間:2017-12-07

語音識別發(fā)展現(xiàn)狀與展望_第1頁
語音識別發(fā)展現(xiàn)狀與展望_第2頁
語音識別發(fā)展現(xiàn)狀與展望_第3頁
語音識別發(fā)展現(xiàn)狀與展望_第4頁
語音識別發(fā)展現(xiàn)狀與展望_第5頁
資源描述:

《語音識別發(fā)展現(xiàn)狀與展望》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、中國中文信息學(xué)會第七次全國會員代表大會暨學(xué)會成立30周年學(xué)術(shù)會議語音識別發(fā)展現(xiàn)狀與展望中科院自動化研究所徐波2011年12月4日報告提綱?語音識別技術(shù)現(xiàn)狀及態(tài)勢?語音識別技術(shù)的行業(yè)應(yīng)用?語音識別技術(shù)研究方向?結(jié)論與展望2010年始語音識別重新成為產(chǎn)業(yè)熱點(diǎn)?移動互聯(lián)網(wǎng)的興起成為ASR最重要的應(yīng)用環(huán)境。在Google引領(lǐng)下,互聯(lián)網(wǎng)、通信公司紛紛把語音識別作為重要研究方向–Android系統(tǒng)內(nèi)嵌語音識別技術(shù),Google語音翻譯等;–iPhone4S上的Siri軟件;–百度、騰訊、盛大、華為等都進(jìn)軍語音識別領(lǐng)域;–我國語音技術(shù)

2、領(lǐng)軍企業(yè)訊飛2010年推出語音云識別、訊飛口訊–已有的QQ2011版語音輸入等等成熟度分析-技術(shù)成熟度曲線?美國市場調(diào)查咨詢公司Gartner于2011年7月發(fā)布《2011新興技術(shù)成熟度曲線》報告:成熟度分析-新興技術(shù)優(yōu)先矩陣?Gartner評出了2011年具有變革作用的技術(shù),包括語音識別、語音翻譯、自然語言問答等。其中語音翻譯和自然語言問答有望在5-10年內(nèi)獲得大幅利用,而語音識別有望在2-5年內(nèi)獲得大幅利用;三十年語音識別技術(shù)發(fā)展---特征提取與知識方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA,f

3、MPE,neuralnet-basedfeatures?前端優(yōu)化–融入更多特征信息(MLP、TrapNN、BottleNeckFeatures等)?特征很大特點(diǎn)有些是跟模型的訓(xùn)練算法相匹配?大規(guī)模FSN圖表示,把各種知識源集中在一起–bigramvs.4-gram,withinworddependenciesvs.cross-word三十年語音識別技術(shù)發(fā)展---模型與算法?統(tǒng)計模型HMM–EM、MAP/MLLR自適應(yīng)–MMIE、MPE、fMPE訓(xùn)練(2005)–boostedMMIE(bMMIE)訓(xùn)練(2008)–基于最

4、大邊距(Largemargin)分類的區(qū)分度訓(xùn)練(2004-2008)?優(yōu)化模型精度–聲學(xué)上下文建模?Quinphone(五音子)、Septaphone(七音子)–方差建模(SPAM、EMLLT、全方差建模等)–SubspaceGMM(SGMM)建模(2009)?提出了更好的聲學(xué)數(shù)據(jù)共享機(jī)制三十年語音識別技術(shù)發(fā)展---搜索?A*搜索?Viterbi搜索?多遍(Multi-pass)識別?多系統(tǒng)融合(ROVER)技術(shù)三十年語音識別技術(shù)發(fā)展---ASR開放源碼工具?HTK為基礎(chǔ)的聲學(xué)模型建模技術(shù)–劍橋大學(xué)的HTK(v3.4.

5、1)?LM模型建模技術(shù)–從傳統(tǒng)的SRI的SRILM(v1.5)–到能夠處理更大規(guī)模語料的?微軟的MSRLM(v0.1)?以及意大利IRST實驗室的IRSTLM(v5.6)?FSN以及解碼技術(shù)–MIT的LibFST(v1.4.0)–Google的OpenFST(v1.2.7)大詞匯量連續(xù)語音識別技術(shù)發(fā)展概況---在電話、會議等復(fù)雜環(huán)境中目前英語識別率準(zhǔn)確率在80%左右,離人類2%-4%的錯誤率還有很大距離Moore定理及應(yīng)用服務(wù)驅(qū)動計算能力和方式的改變?云計算主要特征–低成本:一堆廉價的機(jī)器,但數(shù)量龐大;–虛擬化技術(shù):使用

6、者感覺只面對一臺機(jī)器;–并行計算結(jié)構(gòu):程序必須支持并行計算?云計算類型–公有云:對外提供計算和存儲服務(wù)等,utility;–私有云:對外提供應(yīng)用服務(wù),但滿足低成本、虛擬化以及并行化等特點(diǎn);?云計算vs.集群:–虛擬化技術(shù)+并行計算;–在云之上的應(yīng)用服務(wù)開發(fā)更加規(guī)范和形式化;語音模式識別的云服務(wù)優(yōu)勢?在用戶層面上,云端向終端提供了革命性的計算和存儲能力;?對于運(yùn)營商而言,云服務(wù)運(yùn)營還非常易于獲得海量有標(biāo)簽的訓(xùn)練樣本,從而幫助研究人員持續(xù)改進(jìn)識別性能。?云語音更將挑戰(zhàn)“發(fā)音習(xí)慣,用詞習(xí)慣”等傳統(tǒng)技術(shù)難以解決的技術(shù)難點(diǎn),為用戶

7、帶來全新的,極簡的溝通體驗。傳統(tǒng)語音識別研究關(guān)心的問題?語音識別特征,是否足夠魯棒??語音識別模型,是否足夠魯棒并具有可區(qū)分性;?語言模型,是否具有足夠的覆蓋度以及可回退性??語音識別搜索,是否能盡量較少搜索誤差并提高搜索效率??………云計算減少了語音識別計算約束?應(yīng)用場景產(chǎn)生很大變化–移動互聯(lián)網(wǎng)環(huán)境下的應(yīng)用---語音、語言自適應(yīng)和個性化模型變得非常關(guān)鍵;?語音識別(包括中文信息處理)技術(shù)新出發(fā)點(diǎn):三個近乎Unlimited–計算量可以是unlimited---窮舉式搜索;–存儲量可以是unlimited---無損失存儲

8、;–數(shù)據(jù)量可以使unlimited---海量用戶數(shù)據(jù);云計算環(huán)境下ASR研究目標(biāo)?云計算環(huán)境下具有強(qiáng)大個性化用戶自適應(yīng)能力的識別計算架構(gòu)–自適應(yīng)算法(尤其是語言自適應(yīng))?云計算環(huán)境下大群體用戶的智慧集成–超級語音數(shù)據(jù)中心和模型中心–需要Semi-supervised標(biāo)注能力?核心是如何利用好云中心的數(shù)據(jù)并迅速轉(zhuǎn)化為模

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。