資源描述:
《語音識別的研究現(xiàn)狀和應(yīng)用前景》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、語音識別的研究現(xiàn)狀和應(yīng)用前景語音識別技術(shù)并不是一夜之間冒出來的神話,早在三四十年前,在美國的一些大學和研究單位,就已經(jīng)有人開始從事這一方向的研究,并有一些相關(guān)論文發(fā)表;七十年代前后,研究的脈絡(luò)日漸清晰,于是貝爾實驗室和國際商用機器公司(IBM)等都先后建立了專門的研究機構(gòu)。今天這兩家公司在這一領(lǐng)域都已取得了顯著的成果,并且在商業(yè)上應(yīng)用成功,但貝爾實驗室主要是偏重于電信方面應(yīng)用的語音識別系統(tǒng),如電話查詢等;而IBM則偏重于商務(wù)應(yīng)用,因而在連續(xù)語音識別上取得了不小的成功。不談商業(yè)方面的應(yīng)用,事實上,很多家公司都提供語音識別的引擎(Engine),并且都表示能支持
2、微軟的SAPI??匆豢碨API4.0SUITE就不難發(fā)現(xiàn),微軟在這方面的研究并不遜于任何一家公司,只是很奇怪它居然沒有將成果商業(yè)化。微軟同時提供了一系列引擎,如SpeechRecognition(語音識別)、Command&Control(發(fā)布指令并控制)、PhoneQuery(電話語音識別)、Texttospeech(文本語音轉(zhuǎn)換)等。今天,許多用戶已經(jīng)能享受到語音技術(shù)的優(yōu)勢了,可以對計算機發(fā)送命令,或者要求計算機記錄下用戶所說的話,以及將文本轉(zhuǎn)換成聲音朗讀出來。盡管如此,距離真正的人機自由交流的前景似乎還遠。目前,計算機還需要對用戶作大量訓練才能識別用戶
3、的語音。并且,識別率也并不總是盡如人意。換言之,語音識別技術(shù)還有一段路需要走,要做到真正成功的商業(yè)化,它還必須在很多方面取得突破性進展,這實際就是其技術(shù)的未來走向。就算法模型方面而言,需要有進一步的突破。目前能看出它的一些明顯不足,尤其在中文語音識別方面,語言模型還有待完善,因為語言模型和聲學模型正是聽寫識別的基礎(chǔ),這方面沒有突破,語音識別的進展就只能是一句空話。目前使用的語言模型只是一種概率模型,還沒有用到以語言學為基礎(chǔ)的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展,這是一個相當艱苦的工作。此外,隨著硬件資源的不斷發(fā)展,一些核心算法如
4、特征提取、搜索算法或者自適應(yīng)算法將有可能進一步改進??梢韵嘈牛雽w和軟件技術(shù)的共同進步將為語音識別技術(shù)的基礎(chǔ)性工作帶來福音。就自適應(yīng)方面而言,語音識別技術(shù)也有待進一步改進。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用戶在使用前進行幾百句話的訓練,以讓計算機適應(yīng)你的聲音特征。這必然限制了語音識別技術(shù)的進一步應(yīng)用,大量的訓練不僅讓用戶感到厭煩,而且加大了系統(tǒng)的負擔。并且,不能指望將來的消費電子應(yīng)用產(chǎn)品也針對單個消費者進行訓練。因此,必須在自適應(yīng)方面有進一步的提高,做到不受特定人、口音或者方言的影響,這實際上也意味著對語言模型的進一步改進
5、?,F(xiàn)實世界的用戶類型是多種多樣的,就聲音特征來講有男音、女音和童音的區(qū)別,此外,許多人的發(fā)音離標準發(fā)音差距甚遠,這就涉及到對口音或方言的處理。如果語音識別能做到自動適應(yīng)大多數(shù)人的聲線特征,那可能比提高一二個百分點識別率更重要。事實上,ViaVoice的應(yīng)用前景也因為這一點打了折扣,只有普通話說得很好的用戶才可以在其中文版連續(xù)語音識別方面取得相對滿意的成績。就強健性方面而言,語音識別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對語音識別效果影響最大的就是環(huán)境雜音或嗓音,在公共場合,你幾乎不可能指望計算機能聽懂你的話,來自四面八方的聲音讓它茫然而不知所措。很顯然這極
6、大地限制了語音技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗嗓(NoiseCancellation)麥克風才能進行,這對多數(shù)用戶來說是不現(xiàn)實的。在公共場合中,個人能有意識地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語音識別技術(shù)也能達成這一點呢?這的確是一個艱巨的任務(wù)。此外,帶寬問題也可能影響語音的有效傳送,在速率低于1000比特/秒的極低比特率下,語音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語音,以及水聲通信、地下通信、戰(zhàn)略及保密話音通信等,要在這些情況下實現(xiàn)有效的語音識別,就必須處理聲音信號的特殊特征,
7、如因為帶寬而延遲或減損等。語音識別技術(shù)要進一步應(yīng)用,就必須在強健性方面有大的突破。多語言混合識別以及無限詞匯識別方面目前使用的聲學模型和語音模型太過于局限,以至用戶只能使用特定語音進行特定詞匯的識別。如果突然從中文轉(zhuǎn)為英文,或者法文、俄文,計算機就會不知如何反應(yīng),而給出一堆不知所云的句子;或者用戶偶爾使用了某個專門領(lǐng)域的專業(yè)術(shù)語,如"信噪比"等,可能也會得到奇怪的反應(yīng)。這一方面是由于模型的局限,另一方面也受限于硬件資源。隨著兩方面的技術(shù)的進步,將來的語音和聲學模型可能會做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。此外,對于聲學模型的進一步改
8、進,以及以語義學為基礎(chǔ)的語言模型的改進,也能幫助用戶