資源描述:
《關(guān)于語音識別的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、關(guān)于語音識別的研究 摘要:計算機(jī)出現(xiàn)和發(fā)展,為很多領(lǐng)域帶來發(fā)展可能。在此之前,模式識別信號處理技術(shù)和聲學(xué)等,僅能夠獨立研究和使用。而計算機(jī)不僅提供了融合平臺,也使其得以交互,創(chuàng)造更加出色的功能。本文所研究的語音識別技術(shù),便是通過上述學(xué)科實現(xiàn)。語音識別技術(shù),主要應(yīng)用在醫(yī)學(xué)、交通、軍事,工業(yè)生產(chǎn)等領(lǐng)域。特別是近年來技術(shù)成本降低,民用市場不斷擴(kuò)大,這也對語言識別技術(shù)的要求,有了進(jìn)一步的提升。因此,本文對語音識別進(jìn)行研究,借助其發(fā)展趨勢和技術(shù)結(jié)構(gòu)的闡述,幫助讀者認(rèn)識該技術(shù)。同時希望借助本文的研究,為相關(guān)研究者提供一定的理論借鑒?! £P(guān)鍵詞:語音識
2、別;研究趨勢 一、語音識別技術(shù)簡介 語言是人類的基本功能,也是展現(xiàn)思維、進(jìn)行溝通的重要載體。而語音,是由人類人體天賦轉(zhuǎn)化下,所形成一種表達(dá)方式。在科學(xué)視野中,這種天賦的轉(zhuǎn)化,被稱之聲學(xué)表現(xiàn)。然而,不可否認(rèn)的是,雖然語音僅作為一種“天賦表象”,卻是人類目前最為有效的交流手段?! 《⒄Z音識別技術(shù)的發(fā)展歷史 科技引入到聲音的聲學(xué)研究,在人類歷史上發(fā)起較晚,始于上世紀(jì)50年代,研究人員才致力于聲學(xué)和語音學(xué)的基本概念。第一次實現(xiàn)研究突破是在1952年,學(xué)者AT&T5Bell在其實驗室,進(jìn)行了一組當(dāng)前視野來看,并不復(fù)雜的實驗工作。但最終實現(xiàn)了一
3、個單一發(fā)音人,孤立發(fā)音10個英文數(shù)字的語音識別系統(tǒng),方法主要是度量每個數(shù)字的元音音段的共振峰;1956年,RCALab基于Bell的人的研究基礎(chǔ),尋求另一個方向的實踐研究工作,力求識別單一發(fā)音的10個不同的音節(jié),同樣采用了度量共振峰的方法;1959年,組織UniversityCollege的研究學(xué)者,以譜分析和模板匹配的方式,借助構(gòu)建音素識別器的理念,實現(xiàn)了識別4個元音和9個輔音;1962年,東京大學(xué)相關(guān)研究部門,對音素識別器的硬件進(jìn)行實踐性研究工作。以過零率方法分離語音信號的不同部分的識別方式,成為目前較為理想的研究手段之一;1963年,
4、日本NECLab對數(shù)字進(jìn)行語音識別技術(shù)進(jìn)行嘗試,并獲得了相對可靠的研究成果。并創(chuàng)造NEC研究語音識別的模板,由此開創(chuàng)了語音識別技術(shù)的新領(lǐng)域。值得注意的是,在近四十年來,語音識別技術(shù)并未出現(xiàn)質(zhì)的突破。但是,上述內(nèi)容60年代所進(jìn)行的研究,卻成為了支撐人類語言識別技術(shù)近半個世紀(jì)的基礎(chǔ)。而其最為重要的貢獻(xiàn),便是通過理論深度研究,于1969年提出時間歸正法?! ∪⒄Z音識別技術(shù)的應(yīng)用及前景5 隨著聲學(xué)研究的發(fā)展,語音識別技術(shù)已然具備了應(yīng)用的基礎(chǔ)。從現(xiàn)狀來看,中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%,對特定人語音識別系統(tǒng)就更高。隨著科學(xué)技
5、術(shù)的發(fā)展,集成電路的應(yīng)用,幫助以往過度復(fù)雜的識別體系,能在更小的空間的內(nèi)實現(xiàn)。從在西方經(jīng)濟(jì)發(fā)達(dá)國家來看,大量的語音識別產(chǎn)品已經(jīng)進(jìn)入市場和服務(wù)領(lǐng)域。包括手機(jī)等移動電子設(shè)備,多配備了相對完善的語音機(jī)制。并且盲人所使用的電子設(shè)備中的語音識別系統(tǒng),已經(jīng)達(dá)到了以往的軍用標(biāo)準(zhǔn)。用戶將借助移動通訊網(wǎng)絡(luò),以語音識別的口語對話系統(tǒng),完成日常生活中,如訂購票務(wù)、酒店等事宜。據(jù)調(diào)查統(tǒng)計結(jié)果,目前85%以上的使用者,對語音識別信息查詢服務(wù)系統(tǒng)的功能性、準(zhǔn)確性表示滿意。由此,也可以進(jìn)行預(yù)測:在未來的十年內(nèi),語音識別系統(tǒng)的應(yīng)用范圍將逐漸擴(kuò)大,而基于各類語言、需求的產(chǎn)品
6、涌現(xiàn),或借助市場調(diào)節(jié)機(jī)制,有效降低此類系統(tǒng)的應(yīng)用成本。由此更進(jìn)一步滿足各類語音需求。但是,以當(dāng)前的技術(shù)來看,語音識別系統(tǒng)的局現(xiàn)性,或?qū)⒊蔀樽璧K其發(fā)展的根本原因。 四、語音識別技術(shù)的系統(tǒng)結(jié)構(gòu) 不可否認(rèn),語音識別系統(tǒng)是復(fù)雜的。但是,在人類漫長研究中,不斷的歸納和總結(jié),最終找到可以大范圍區(qū)分的“節(jié)點”。由此,幫助語言識別系統(tǒng)的構(gòu)成更加清晰化。從相關(guān)研究發(fā)現(xiàn),一個完整的基于統(tǒng)計的語音識別系統(tǒng)可大致分為兩個部分: 1、語音信號預(yù)處理與特征提取 語音識別的基本工作特征,在于識別單元的選擇,這也是能否獲得識別結(jié)果的重要基礎(chǔ)。然而,對于單元的選擇,
7、需要合理的區(qū)分各個要素,包括單詞(句)、音節(jié)和音素三種。在選擇適合的要素后,才能夠進(jìn)行后續(xù)的識別工作?! 卧~(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不太適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜。故此,看似簡單識別通道,卻因為復(fù)雜性降低了時效,最終導(dǎo)致難以準(zhǔn)確的完成識別任務(wù)。5 音節(jié)單元是基于我國語言特征,所提出的特殊識別要素。由于漢語言與英語等拉丁語系語種的差異性。我國發(fā)展語音識別技術(shù),或難以借助他國成熟經(jīng)驗。但是,由于漢語音節(jié)總數(shù)為1300余個,其中包括408個無調(diào)音節(jié),對比于大量多音節(jié)的拉丁語系,
8、漢語言基礎(chǔ)上的音節(jié)單元要素識別,將具備更高的時效性。這也是我國語音識別技術(shù)能夠“后發(fā)制人”的關(guān)鍵。 音素的識別,主要借助線性預(yù)測(LP)實現(xiàn)。LP分析技術(shù)是目前應(yīng)用廣泛的特征參