資源描述:
《說話人識(shí)別算法的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、2010年9月西安郵電學(xué)院學(xué)報(bào)Sept.2010第15卷第5期JOURNALOFXI’ANUNIVERSITYOFP0s]ANDTELEGOMMUNICATIONSVo1.15No.5說話人識(shí)別算法的研究郭春霞(西安郵電學(xué)院通信與信息工程學(xué)院,陜西西安710121)摘要:針對(duì)說話人識(shí)別問題,基于概率神經(jīng)網(wǎng)絡(luò)PNN,實(shí)驗(yàn)比較MFCC,△MFCC+MFCC分別與PNN相結(jié)合時(shí)的識(shí)別率。仿真結(jié)果表明,在文本有關(guān)情況下,當(dāng)說話人說話內(nèi)容為0~9的發(fā)音時(shí),z~IFCC+MF(℃優(yōu)于MFCC,使用PNN算法的識(shí)別率能夠滿足說話人識(shí)別的實(shí)際要求。關(guān)鍵詞:說話人識(shí)別;概率
2、神經(jīng)網(wǎng)絡(luò);特征提取;Mel頻率倒譜系數(shù);差分MFCC中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007—3264(2010)05—0104—03實(shí)用中得到了較好的效果l3_。0引言1.1Mel倒譜參數(shù)(MFCC)Mel頻率倒譜系數(shù)(MFCC)是在頻譜上采用濾建立一個(gè)說話人識(shí)別系統(tǒng)分為兩個(gè)階段:訓(xùn)練波器組的方法計(jì)算出來的,將語音頻率劃分成一系階段和識(shí)別階段。在訓(xùn)練階段,系統(tǒng)的每一個(gè)使用列三角形的濾波器序列,這組濾波器在頻率的美爾者說出若干訓(xùn)練語料,系統(tǒng)根據(jù)這些訓(xùn)練語料,通過(Me1)坐標(biāo)上是等帶寬的。這是因?yàn)槿祟愒趯?duì)訓(xùn)練學(xué)習(xí)建立每個(gè)使用者的模板或模型參數(shù)
3、參考1000Hz以下的聲音頻率范圍的感知遵循近似線性集。而在識(shí)別階段,把從待識(shí)別說話人說出的語音關(guān)系;對(duì)1000Hz以上的聲音頻率范圍的感知不遵信號(hào)中提取的特征參數(shù),與在訓(xùn)練過程中得到的參循線性關(guān)系,而是遵循在對(duì)數(shù)頻率坐標(biāo)上的近似線考參量集或模型模板比較,并且根據(jù)一定相似性準(zhǔn)性關(guān)系。則進(jìn)行判定?。說話人辨識(shí)時(shí),取與測試語音匹配1.2差分MFCC的提取距離最小的說話人模型所對(duì)應(yīng)的說話人作為說話人二次特征提取l4]是對(duì)原始特征向量序列進(jìn)行辨識(shí)的結(jié)果,說話人確認(rèn)時(shí),用測試語音與所聲稱的再分析。通過對(duì)特征向量運(yùn)用加權(quán)、差分、篩選等方說話人模型進(jìn)行匹配,若匹配距離小
4、于規(guī)定的閥值,法,進(jìn)一步剝離出隱藏在語音背后的說話人特征。則該說話人得到證實(shí),否則該說話人不是他所聲稱二次特征提取其第一步是提取原始特征向量:的說話人[2】。MFCC或LPCC特征,隨之是特征加權(quán)、特征差分、特征篩選等。1特征提取標(biāo)準(zhǔn)的MFCC只反映了語音參數(shù)的靜態(tài)特性,而人耳對(duì)語音的動(dòng)態(tài)特性更為敏感。為更好地?cái)M合說話人識(shí)別技術(shù)的關(guān)鍵問題之一是提取反映說人發(fā)聲和人耳聽覺的動(dòng)態(tài)特性,采用MFCC的一階話人個(gè)性的語音特征參數(shù)。目前常用的特征參數(shù)包差分(AMFCC)Feature括線性預(yù)測倒譜系數(shù)(LPCC)、美爾倒譜系數(shù)~D(j):Feature(j)—Fea
5、ture(j一1)(MF()等。LPCC參數(shù)和MFCC參數(shù)分別根據(jù)人(1)的發(fā)聲原理和聽覺感知原理,從人的聲音提取出能其中,i=0,1,?P,J=1,2,?,N,P為特征階數(shù),量分布譜,從中獲得聲紋的獨(dú)特特征,這兩種參數(shù)在N為特征向量數(shù)。Feature為原有特征向量序列,收稿日期:2010—03—03作者簡介:郭春霞(1977一),女,河南沁陽人,西安郵電學(xué)院通信與信息工程學(xué)院助教。第5期郭春霞:說話人識(shí)別算法的研究·105·Feature-D為原有特征向量序列的一階差分結(jié)果。(1)訓(xùn)練容易,收斂速度快,從而非常適用于實(shí)增加delta系數(shù),即通過對(duì)靜態(tài)參數(shù)
6、增加時(shí)間差,可時(shí)處理以提高說話人識(shí)別系統(tǒng)的性能。Delta系數(shù)可以通(2)可以完成任意的非線性變換,所形成的判決過下面的公式計(jì)算曲面與貝葉斯最優(yōu)準(zhǔn)則下的曲面相接近旦∑臼((3)具有很強(qiáng)的容錯(cuò)性+口一一)(4)模式層的傳遞函數(shù)可以選用各種用來估計(jì)D,=L——一(2)概率密度的核函數(shù),并且分類結(jié)果對(duì)核函數(shù)的形式2:1不敏感D,可以通過相應(yīng)的靜態(tài)系數(shù)C+口和c日計(jì)算。公式(5)各層神經(jīng)元的數(shù)目比較固定,因而易于硬件(2)依賴于過去和將來的語音值,可以通過使用下實(shí)現(xiàn)面的公式修改開始和結(jié)尾的語音PNN已較廣泛地應(yīng)用于非線性濾波、模式分D£=Ct+1一C£t<@和類、
7、聯(lián)想記憶和概率密度估計(jì)當(dāng)中,特別是在模式分D£Cf—Ct+lt≥T一@類應(yīng)用中PNN表現(xiàn)出了良好性能[,。綜上所述,在提取了MFCC參數(shù)后,可用式(3)實(shí)驗(yàn)基于PNN的說話人識(shí)別系統(tǒng)實(shí)驗(yàn)采用多的差分特征參數(shù)提取算法提取~MFCC。輸出型方式,對(duì)于20個(gè)人,只有一個(gè)人工神經(jīng)網(wǎng)絡(luò)Ct+1一C,t<@模型,而這個(gè)網(wǎng)絡(luò)有多個(gè)輸出節(jié)點(diǎn),每一個(gè)輸出節(jié)點(diǎn)—+1t≥T一@對(duì)應(yīng)一個(gè)類別。在訓(xùn)練階段,如果用于訓(xùn)練的輸入0訓(xùn)練樣本的類別標(biāo)號(hào)是i,則訓(xùn)練時(shí)設(shè)第i個(gè)節(jié)點(diǎn)的∑口(+口一Ct一)(3)期望輸出設(shè)為1,而其余輸出節(jié)點(diǎn)期望輸出均為0。三——————————————一其他@在
8、識(shí)別階段,當(dāng)一個(gè)未知類別的樣本作用到輸入端2∑時(shí),考查各輸出節(jié)點(diǎn)的