資源描述:
《漢語數(shù)碼語音識別:發(fā)展現(xiàn)狀,難點分析與方法比較》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、維普資訊http://www.cqvip.com第2卷第4期電路與系統(tǒng)學(xué)報Vol2No43219971I71JOURNALoFCIRCUITSANDSYSTEMSNovember】997更語№語音識別:發(fā)展現(xiàn)狀、難點分析與方法比較—1數(shù)-h.nDigitSpeechRecognition:StateoftheArt,DifficultPoints/,、Analys。sandMethodsComparisonf//習大?),【摘要】車文簡述了漢語碼語音識別的發(fā)展與現(xiàn)狀,分析了漢語數(shù)碼語音識別的混淆度現(xiàn)象廈其它困難,比較了各糕Abstractt::捌Revwl~鬻ingtheStateo’8the
2、tortofManda齜rindigi’tspeechrecognitio強n.thispban幅手thehighconfusionandotherdif-更在95%以下,由此可見,目前的漢語數(shù)碼語音識1引言別水平尚遠遠落后于英語數(shù)碼語音識別水平。語音識別技術(shù)近些年來有了突飛猛進的發(fā)本文將首次分析漢語數(shù)碼語音識別的困難所展。在眾多的語音識別任務(wù)中,最先進入實用化在,然后綜述比較各種語音識別方法在數(shù)碼語音的是英語數(shù)碼語音識別?,而以AT&T公司I、識別中的效果,并提出了若干改進途徑。美國卡內(nèi)基一梅隆大學(xué)、英國劍橋大學(xué)?等為2漢語數(shù)碼語音識別的困難代表的研究機構(gòu)目前則正致力于開發(fā)具有英語非特定人、
3、大詞匯量、連續(xù)語音識別功能的實用產(chǎn)品,而且已經(jīng)取得了相當喜人的成果。同時,劍表1中英文數(shù)碼語音及音節(jié)數(shù)分布橋大學(xué)和菲浦公司還正在研究英語語音識別算法{平均音節(jié)數(shù)!英語一29漢語一21在其它歐洲語種中應(yīng)用的可能性及效果I。在漢數(shù)碼英語發(fā)音音節(jié)數(shù)漢語發(fā)音音節(jié)數(shù)語語音識別方面,國內(nèi)外的漢語大詞匯量語音識0Zero4[1ing]3別都達到了相當高的水平。與此相反,漢語1Olie3[yi]l數(shù)碼語音識別(即?0’~?9’漢語語音識別)技2Two2[el,]l術(shù)雖然在移動通信、電腦話務(wù)員、電話證券交易3qllree3san]3等領(lǐng)域有著極大的應(yīng)用價值,并因此受到了國內(nèi)4Four2[si]2科研單位廣泛重視
4、??.但是其進展卻相當緩慢5Five3[wu]1?】。英語數(shù)碼語音識別的非特定人單字和數(shù)碼串識6Six3[1]3別率早已分別達到了99.7%和9911%以上,而7Seven4[qi]2至今文獻可查的漢語數(shù)碼語音識別非特定人單字8Eight2[h]2識別率尚無一超過99%,連續(xù)數(shù)碼串的識別率則9Nine3[j]3·收文日期:1997年5月2613(May26,1997)c.-GuLiang.Runsheng(QinghuaUnversity、Beijing、100084)維普資訊http://www.cqvip.com顧良等:議語數(shù)碼語音識別:發(fā)展現(xiàn)狀、難點分析與方法比較33從字表容量太小來看,
5、漢語數(shù)碼音識別應(yīng)該表2中英文數(shù)碼語音混淆情況比較是最簡單的一種漢語語音識別任務(wù),因為它包含(音節(jié)包窖是指語音中一個語音包古了另一十1O或11個(若數(shù)碼?1’有[vi】和[yao】兩種發(fā)音)語音的全部音節(jié))字。然而事實并非如此。這主要中因為漢語數(shù)碼語種英語漢語音識別有以下兩方面的困難:0—1,0—3,O_4,0-6,0-7,21語音聞的高混淆單語0-3,0—6,1—7,1-9.2—8,0—9,1_4.1—6.1-7,1—9,顯然.音節(jié)越少,語音之間的相似積程度越音音節(jié)對3—6,4-5,5—7.6—7,7—93l4,3-8.4—6,.4—9,太.識別的困難程度也就越太。表1列出了中英相6—7,6—
6、9.7—9同總文數(shù)碼音的發(fā)音及音節(jié)個數(shù)分布。表2列出了中數(shù)1O18英文數(shù)碼語音的不同混靖情況。從中可以看出.雙語英文數(shù)碼語音的平均音節(jié)數(shù)比漢語數(shù)碼語音多音音無0—6.6—9節(jié)對38%,單音節(jié)相同的語音對明顯偏低,且根本沒相總02有雙音節(jié)相同或音節(jié)包容的情況。這此都說明.同數(shù)音語漢語數(shù)碼語音的混淆遠遠大于英語數(shù)碼語音。無1—4.1—6.1—7.1—9語音混淆對語音識別效果的影響早已引起了節(jié)對包容總04研究工作者們的注意。1975年,日本學(xué)者Itaku.數(shù)1"a”用DTW方法進行200個日本城市名的特定人語音識別,獲得了983%的識別率,而當用同樣方法應(yīng)用于日文字母語音識別時,卻只得到了無線通信中
7、的無線手機語音撥號。由于環(huán)境復(fù)88%的識別率。l994年,Rabin,erll在一項比較中雜、噪聲源較多(如汽車發(fā)動噪聲、街道人群噪音指出只含三十九個字的英語字母音識別任務(wù)(包含等),使得相應(yīng)的數(shù)碼語音識別任務(wù)相當艱巨。二十六個字母、?0~?9十個數(shù)碼及三個控連續(xù)語音問題:漢語數(shù)碼連續(xù)語音的連續(xù)程制字)的誤識率甚至高于一個由1800個字構(gòu)成的度要高于英語數(shù)碼發(fā)音,這是由于純元音語音(即英語航空旅行