資源描述:
《應(yīng)用動態(tài)時間規(guī)整與矢量量化的語音識別算法.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第32卷第3期2010年6月光學(xué)儀器OPTICALINSTRUMENTS壇疆32。No.3June,2010文章編號:1005—5630(2010)03一0041一05應(yīng)用動態(tài)時問規(guī)整與矢量量化的語音識別算法*徐相華,徐伯慶(上海理工大學(xué)光電信息與計算機工程學(xué)院,上海200093)摘要:提出了一種基于動態(tài)時間規(guī)整(DTW)的改進乎均最小距離識別算法,改善了孤立詞識別的魯棒性并提高了識剮率。同時對矢量量化(VO)算法分析了不同碼本大小下的識別率,并比較了各種算法的運算時間。通過在MatLab上實現(xiàn)特定人孤立詞小詞匯量語音識別,
2、實驗的結(jié)果表明:基于DTW算法的改進平均最小距離法識別率顯著提高;碼本較大時VQ算法的識別率最高;VQ算法的識別率一般高于DTW算法且運行時間短。關(guān)鍵詞:動態(tài)時間規(guī)整;矢量量化;倒譜系數(shù);歐氏距離中圖分類號:TN912.34文獻標(biāo)識碼:Adoi:10.3969/j.issn.1005-5630.2010.03.010SpeechrecognitionalgorithmusingdynamictimewarpingandvectorquantizationxuXiangh銘口.XUBoqing(SchoolofOptical-
3、ElectricalandComputerEngineering,UniversityofShanghaiforScienceandTechnology,Shanglmi200093,China)Abstract:Animprovedmeanminimumdistancemethodbased011DTWisproposedinthispaper,itimprovestherobustnessofisolatedwordsrecognitionandincreasestherecognitionrate.Therecogni
4、tionrateofVQalgorithmindifferentcodebooksizeisalsoanalyzedaswellasthecomputingtimeofeachalgorithm.Byrealizationofspecific-personisolated-wordsmall—vocabularyspeechrecognitiononMatLab,theresearchshowsthattherateofimprovedmeanminimumdistancemethodbasedonDTWimprovesre
5、markablyandtherateofVQalgorithmisthehighestinlargecodebook.VQalgorithmisusuallyhigherthanDTWinrecognitionrateandtakeslesscomputingtime.Keywords:dynamictimewarping;vectorquantization;cepstrumcoefficient;Euclideandistance引言在語音識別系統(tǒng)中,算法的選擇很大程度上決定了識別的性能。動態(tài)時間規(guī)整(dynamicti
6、mewarping,DTW)和矢量量化(vectorquantization,VO)是目前語音識別系統(tǒng)中廣泛使用的兩種技術(shù)。動態(tài)時間規(guī)整采用動態(tài)規(guī)劃思想很好地解決了語音模式匹配過程中的時間對準(zhǔn)難題。矢量量化技術(shù)通過對訓(xùn)練數(shù)據(jù)進行聚類,把大量的特征矢量用碼字?jǐn)?shù)較少的碼本來表示,在盡可能保留特征矢量的有效信息的前提下,去掉多余或無用的信息,從而節(jié)約了存儲空間,加快了運算速度。。收稿日期:2009一II一25作者簡介:徐相華(1982一),男,江蘇南通人。碩士研究生,主要從事信號信息處理方面的研究?!?2·光學(xué)儀器第32卷文中介紹
7、了基于DTW的3種不同數(shù)據(jù)處理算法及VQ識別算法;分析了DTW算法和VQ算法的識別率并比較了它們的程序運行時間。1動態(tài)時間規(guī)整動態(tài)時間規(guī)整(DTW)是日本學(xué)者板倉(hakura)于60年代提出的一種算法。它將動態(tài)規(guī)劃技術(shù)應(yīng)用于解決孤立詞識別時的說話速度不均勻的難題,是一種把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性歸整技術(shù)。1.1D'rw基本原理設(shè)參考模板的特征矢量序列為:z,,z:,?,‰,待測特征矢量序列為:Y·,yz,?,弘,m≠療。動態(tài)時間規(guī)整算法就是要尋找一個最佳的時間規(guī)整函數(shù)(或路徑),把待測語音的時間軸,z非線
8、性地映射到參考模板的時間軸m上,使得總的累計失真達(dá)到最小。實現(xiàn)過程可分兩步來完成:第一步計算兩個模板各特征矢量問的距離(歐氏距離),構(gòu)成一個mXn階距離矩陣;第二步在距離矩陣中用動態(tài)規(guī)劃的思想,找出一條最佳路徑,該路徑起始于矩陣左下角(對應(yīng)于兩模板的起始幀)終止于矩陣右上角(對應(yīng)于兩模板的