資源描述:
《淺談?wù)f話人識(shí)別技術(shù)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、淺談?wù)f話人識(shí)別技術(shù):隨著科學(xué)技術(shù)的快速發(fā)展,生物特征識(shí)別技術(shù)得到了越來(lái)越多的研究和應(yīng)用,這其中包括說(shuō)話人識(shí)別技術(shù)的研究和應(yīng)用。該文對(duì)說(shuō)話人識(shí)別的概念、原理及其識(shí)別方法做了簡(jiǎn)要介紹,提出了時(shí)下的研究的熱點(diǎn)難點(diǎn),并對(duì)這項(xiàng)技術(shù)的發(fā)展進(jìn)行了展望。 關(guān)鍵詞:說(shuō)話人識(shí)別;特征提??;識(shí)別模型;判決策略 :TP18:A:1009-3044(2011)11-2657-02 隨著全球信息化的快速發(fā)展,電子商務(wù)等信息技術(shù)得到了廣泛的應(yīng)用,人們發(fā)現(xiàn),傳統(tǒng)的使用密碼來(lái)認(rèn)證用戶的方法變的越來(lái)越脆弱。在這種背景下,解決用戶高安全性和長(zhǎng)效穩(wěn)定性的生物認(rèn)證技術(shù)逐漸得到人們的青
2、睞。在眾多的生物認(rèn)證技術(shù)中,說(shuō)話人識(shí)別技術(shù)以其信號(hào)采集簡(jiǎn)單、系統(tǒng)設(shè)備成本低等優(yōu)點(diǎn)得到了快速發(fā)展,展現(xiàn)了廣闊的應(yīng)用前景?! ≌f(shuō)話人識(shí)別技術(shù)包括說(shuō)話人辨認(rèn)技術(shù)和說(shuō)話人確認(rèn)技術(shù),他們?cè)诒举|(zhì)上是一致的,唯一不同的是說(shuō)話人辨認(rèn)技術(shù)是從多個(gè)說(shuō)話人語(yǔ)音中辨認(rèn)出某個(gè)人的那一段語(yǔ)音信息,而說(shuō)話人確認(rèn)技術(shù)是確定某段語(yǔ)音信息是不是某人所說(shuō)。兩者是一對(duì)多和一對(duì)一的關(guān)系。每個(gè)人的發(fā)音因?yàn)槭艿铰暤篮桶l(fā)音特點(diǎn)等影響,總是存在一些代表自己特征的元素,說(shuō)話人識(shí)別技術(shù)就是通過(guò)采集、提取這些表征說(shuō)話人固有特征的參數(shù)來(lái)達(dá)到識(shí)別的目的。語(yǔ)音識(shí)別技術(shù)的應(yīng)用有著非常多的優(yōu)點(diǎn),同時(shí)目前的研究也存
3、在一些還沒有突破的難點(diǎn),但我相信,不久的將來(lái),說(shuō)話人識(shí)別技術(shù)一定會(huì)在我國(guó)的信息安全方面起到無(wú)以替換的重要作用?! ?特征提取 特征提取就是提取語(yǔ)音信號(hào)中表征說(shuō)話人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說(shuō)話人,且對(duì)同一說(shuō)話人的變化保持相對(duì)穩(wěn)定。提取的說(shuō)話人的特征參數(shù)應(yīng)滿足相應(yīng)的條件:對(duì)局外變量不敏感,如說(shuō)話人的情緒的影響;能夠長(zhǎng)期地保持穩(wěn)定;可以經(jīng)常表現(xiàn)出來(lái);易于對(duì)之進(jìn)行測(cè)量,與其它特征不相關(guān)?! ≌Z(yǔ)音信號(hào)是一種攜帶著各種信息的非平穩(wěn)的時(shí)變信號(hào)。在說(shuō)話人識(shí)別系統(tǒng)中,首先我們需要對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取特征參數(shù)。然后對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。語(yǔ)音信號(hào)經(jīng)過(guò)
4、預(yù)處理過(guò)后,會(huì)產(chǎn)生很大的數(shù)據(jù)量。在提取說(shuō)話人特征時(shí),就需要通過(guò)去除原來(lái)語(yǔ)音中的冗余信息來(lái)減小數(shù)據(jù)量。說(shuō)話人識(shí)別技術(shù)中的測(cè)試音和訓(xùn)練語(yǔ)音都只有在經(jīng)過(guò)特征提取后才能與說(shuō)話人模型進(jìn)行比較、匹配和模型訓(xùn)練。因此,特征提取是說(shuō)話人識(shí)別技術(shù)中的關(guān)鍵步驟,其好壞直接影響到整個(gè)系統(tǒng)的性能。 1.1時(shí)域特征矢量 由于不穩(wěn)定和表征語(yǔ)音特征較差,現(xiàn)在已應(yīng)用很少。通常是指將一幀語(yǔ)音信號(hào)中的各個(gè)時(shí)域采樣直接構(gòu)成一個(gè)矢量;如時(shí)域上的幅度(或能量)、平均過(guò)零率等。 1.2變換域矢量 對(duì)一幀語(yǔ)音信號(hào)進(jìn)行某種變換以后產(chǎn)生的相應(yīng)矢量,如線性預(yù)測(cè)系數(shù)、LPC倒譜系數(shù)、線譜對(duì)參數(shù)
5、、共振峰率、短時(shí)譜等。倒譜系數(shù)描述了人的聲道特征,其中基于聲道全極點(diǎn)模型的LPC倒譜系數(shù)(LPCC)具有廣泛的應(yīng)用。具有更好的識(shí)別性能的是基于符合人耳聽覺的Mel頻率尺度提取出的倒譜系數(shù)MFCC比LPCC在去噪方面更出色。近年來(lái),應(yīng)用更為廣泛的是小波變換,他的分辨率可變、無(wú)平穩(wěn)要求等優(yōu)點(diǎn)?! ?識(shí)別模型 所謂的識(shí)別模型,是指用什么模型來(lái)描述說(shuō)話人的語(yǔ)音特征在特征空間的分布。對(duì)于說(shuō)話人識(shí)別系統(tǒng),特征參數(shù)被提取出來(lái)后,需要用識(shí)別模型為說(shuō)話人建模,并對(duì)特征進(jìn)行分類,以確定屬于哪一個(gè)說(shuō)話人。下面分別簡(jiǎn)要介紹這幾種分類模型?! ?.1矢量量化模型 矢量量
6、化是將若干個(gè)幅度連續(xù)取值的時(shí)域采樣信號(hào)分成一組,即構(gòu)成矢量,然后用若干離散的數(shù)字值(或標(biāo)號(hào))來(lái)表示各種矢量。用矢量量化模型識(shí)別說(shuō)話人就是對(duì)某一說(shuō)話人的特征矢量序列通過(guò)聚類算法可以聚為M類,求每類中所有矢量的均值就得到了每類的碼本矢量,M個(gè)碼本矢量構(gòu)成了該說(shuō)話人的矢量量化模型。在識(shí)別過(guò)程中,將每一特征矢量到某一說(shuō)話人的M個(gè)碼本矢量的最小距離進(jìn)行累加,累加和最小的說(shuō)話人作為識(shí)別結(jié)果。矢量量化模型分類特性較好,可以通過(guò)對(duì)長(zhǎng)時(shí)語(yǔ)音特征參數(shù)統(tǒng)計(jì)信息的量化來(lái)區(qū)分說(shuō)話人,還能壓縮數(shù)據(jù)。用它建立識(shí)別模型,在數(shù)據(jù)量、訓(xùn)練時(shí)間、識(shí)別響應(yīng)等方面都具有很強(qiáng)的優(yōu)勢(shì)?! ?.
7、2隱馬爾可夫模型 馬爾可夫鏈推廣的隱馬爾可夫模型(HMM)也是一種比較常用的模型。在HMM模型中,觀察到的事件與狀態(tài)通過(guò)一組概率分布相聯(lián)系,是一個(gè)雙重隨機(jī)過(guò)程,其中一個(gè)是馬爾可夫鏈,它描述了狀態(tài)之間的轉(zhuǎn)移;另一個(gè)隨機(jī)過(guò)程描述了狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。隱馬爾可夫模型是HMM模型的隱含狀態(tài),可以觀察到的是狀態(tài)產(chǎn)生的觀察值。HMM模型的優(yōu)點(diǎn)在于它既能用短時(shí)模型狀態(tài)解決聲學(xué)特性中相對(duì)穩(wěn)定段的描述,又能用狀態(tài)轉(zhuǎn)移規(guī)律刻畫平衡之間的時(shí)變過(guò)程,所以能統(tǒng)計(jì)地吸收發(fā)音的聲學(xué)特性和時(shí)間上的變動(dòng)。這是80年代語(yǔ)音信號(hào)數(shù)字處理技術(shù)的一項(xiàng)重大進(jìn)展。HMM模型的缺點(diǎn)
8、是分類能力比較弱,對(duì)噪聲的魯棒性較低。在實(shí)際環(huán)境下基于HMM的說(shuō)話人識(shí)別系統(tǒng)識(shí)別性能會(huì)顯著降低?! ?.3高斯混合模型