資源描述:
《基于dsp的話者識別系統(tǒng)svm算法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、http://www.paper.edu.cn基于DSP的話者識別系統(tǒng)SVM算法的研究12郭峻嶺沈維聰1武漢理工大學(xué)信息工程學(xué)院,湖北武漢(430070)2武漢理工大學(xué)信息工程學(xué)院,湖北武漢(430070)E-mail:candykiven@163.com摘要:本文給出了一種基于DSP的話者識別系統(tǒng)的硬件設(shè)計與算法研究。硬件核心是TMS320C5402數(shù)字信號處理器,接口芯片為數(shù)模/模數(shù)轉(zhuǎn)換器TLV320AIC23。軟件算法采用支持向量機SVM(SupportVectorMachine)方法來對語音信號進(jìn)行訓(xùn)練與識別。關(guān)鍵詞:話者識別DSP倒譜系數(shù)(MFCC)支持向量機(SVM)1.引言話者識
2、別即說話人識別,它是語音識別的一個重要發(fā)展方向。與語音識別不同的是,說話人識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)說話人的個性特點;而語音識別的目的是識別出語音信號中的言語內(nèi)容,并不考慮說話人是誰,它強調(diào)共性。隨著現(xiàn)代數(shù)字通訊、多媒體系統(tǒng)、信息高速公路等技術(shù)的應(yīng)用和發(fā)展,話者識別己經(jīng)越來越深入地影響并改變著我們每個人的生活和工作方式,這同時也對語音信號處理的研究工作提出了更高的要求,它在各方面的進(jìn)展也令人矚目。如今,說話人識別技術(shù)己逐漸走入實際應(yīng)用,AT&T應(yīng)用說話人識別技術(shù)研制出了智慧卡(smartcard),己應(yīng)用于自動提款[4]機。歐洲電信聯(lián)盟在電信與金融結(jié)合
3、領(lǐng)域應(yīng)用說話人識別技術(shù),于1998年完成了CAVE(CallerVerificationinBankingandTelecommunication)計劃,并于同年又啟動了PICASSO(PioneeringCallAuthenticationforSecureServiceOperation)計劃,在電信網(wǎng)上完成了說話人識別。2.話者識別基本原理話者識別技術(shù)是一門交叉學(xué)科,它所涉及的學(xué)科基礎(chǔ)包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。每個說話人的語音信號既含有文本信息又含有說話人信息,說話人識別就其本質(zhì)來講,就是要把語音信號中的文本信息與說話人信息分離開,提取其
4、中表征說話人身份的信息;另一方面,我們希望在提取說話人的特征時要盡可能地做到與文本無關(guān),不易受外界環(huán)境、身體狀況等因素的影響。因此從語音信號中[3.4]提取的說話人特征參數(shù)應(yīng)滿足以下準(zhǔn)則:ò對局部變量(例如:身體狀況、情緒、系統(tǒng)的傳輸特性)不敏感;ò能長期地保持穩(wěn)定;-1-http://www.paper.edu.cnò容易對其進(jìn)行測量和存儲;[1]話者識別分為訓(xùn)練和識別兩個部分。在訓(xùn)練階段,話者識別系統(tǒng)將為每一個話者建立一個能夠描述這一說話人個性特征的模型,即說話人的語音特征模型。話者識別系統(tǒng)對語音樣本進(jìn)行學(xué)習(xí),學(xué)習(xí)結(jié)束把學(xué)習(xí)的內(nèi)容存儲到模型庫中。在識別階段,對說話人進(jìn)行辨認(rèn)時,取與測試音匹
5、配距離最小的說話人模型所對應(yīng)的說話人作為說話人識別的結(jié)果;對說話人進(jìn)行確認(rèn)時,用測試音的模型與所聲稱的說話人的模型進(jìn)行比較,若匹配距離小于一個規(guī)定的閥值,則該說話人得到確認(rèn)。說話人識別的基本原理如圖一所示。語音輸入識別結(jié)果預(yù)處理特征提取模式匹配模板訓(xùn)練參考模式圖1話者識別基本原理3.系統(tǒng)硬件結(jié)構(gòu)本系統(tǒng)以TMS320C5402為核心。TMS320C5402DSP是TI公司TMS320C54X系列的產(chǎn)品,它是一種典型的高性能、低功耗、16位定點DSP,廣泛應(yīng)用于語音處理、圖形圖像處理以及實時信號處理等多種領(lǐng)域。由于采用先進(jìn)的修正哈佛(Harvard)結(jié)構(gòu)、多總線結(jié)構(gòu)和流水線技術(shù),使處理指令和數(shù)據(jù)可
6、以同時進(jìn)行,從而大大提高了處理速度,TMS320C5402DSP的處理速度最高可達(dá)100MIPS。在數(shù)字信號處理算法中,乘法和累加是基本的大量的運算,如卷積、FFT、FIR和IIR、矩陣運算、矢量搜索等,都大量類似于∑A(k)B(n?k)一類的運算。而DSP中設(shè)置了硬件乘法器和MAC(乘法并累加)一類指令,這些操作往往可在單個指令周期內(nèi)完成,從而提高了速度,即使在聲頻范圍內(nèi)也能達(dá)到實時分析處理。片內(nèi)存儲器DRAM有16K字,ROM有4K字;片內(nèi)具有豐富的外設(shè),如PLL、McBSP、DMA、HIP等,其中多通道緩沖串口(McBSP)是一個雙向的同步串口,用來和AD/DA連接,接收采集到的語音數(shù)據(jù)
7、。TMS320C5402有兩個McBSP多通道緩存串行口。McBSP提供了全雙工的通信機制,以及雙緩存的發(fā)送寄存器和三緩存的接收寄存器,允許連續(xù)的數(shù)據(jù)流傳輸,數(shù)據(jù)長度可以為8、12、16、20、24、32;同時還提供了A-律和μ-律壓擴,多達(dá)128個通道的發(fā)送和接收。AD/DA芯片采用TI公司的高速模擬接口芯片TLV320AIC23,它集成了16位A/D和D/A轉(zhuǎn)換器,采樣速率最高可達(dá)22.05k