資源描述:
《基于GMM的說話人鼾.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于GMM的說話人鼾聲識別張高登楊康林:程序﹑論文編寫涂輝劉力:音頻軟件﹑PPT﹑文檔格式轉(zhuǎn)換李輝朱浦力葛恒芒胥智慧蔣泊清:資料收集與匯總1說話人識別的歷史與現(xiàn)狀2鼾聲處理步驟及算法思想3特征提取4說話人模型5難點和熱點主要內(nèi)容1說話人識別的歷史與現(xiàn)狀對聲紋識別的研究始于20世紀30年代。早期:人耳聽辨實驗和探討聽音識別的可能性方面。70年代末至今:重點轉(zhuǎn)向?qū)Ω鞣N聲學參數(shù)的線性或非線性處理以及新的模式匹配方法上,如動態(tài)時間規(guī)整、主成分分析、隱馬爾可夫模型、神經(jīng)網(wǎng)絡和多特征組合等技術(shù)。2鼾聲處理及算法思想1語音產(chǎn)生模型2說話人識別基本原理3預處理2.1語音產(chǎn)生
2、模型語音信號可以看成是激勵信號UG(n)經(jīng)過一個線性系統(tǒng)H(z)而產(chǎn)生的輸出。其中,聲道模型H(z)為離散時域的聲道傳輸函數(shù),通??捎萌珮O點函數(shù)來近似。不同的說話人其聲道形狀是不同的,因此具有不同的聲道模型。H(z)表示為其中p為全極點濾波器的階數(shù);ai(i=1,2,?,p)為濾波器的系數(shù)。p值越大,則模型的傳輸函數(shù)和實際聲道傳輸函數(shù)的吻合程度就越高,當然p值也不能取得太大,一般情況下,p的取值范圍為8~12。2.2說話人識別基本原理輸入語音特性提取判決模型產(chǎn)生相似性準則模型存儲預處理訓練識別說話人鼾聲識別系統(tǒng)框圖2.3預處理采樣量化,語音信號通常以8kHz
3、或更高的采樣速率數(shù)字化,每個采樣至少用8bit表示;預加重,聲音經(jīng)過8kHz或更高采樣速率的采樣后轉(zhuǎn)換成數(shù)字語音信號,接著通過一個一階高通濾波器來作預加重處理以突顯高頻部分,其傳遞函數(shù)為:,一般a的值取0.95左右;取音框,一般取256點為一個音框(32ms),音框與音框之間重疊128點(16ms),即每次位移128點后再取256點作為下一個音框,這樣可避免音框之間的特性變化過于劇烈;加窗,針對每個音框乘上漢明窗以消除音框兩端的不連續(xù)性,避免分析時受到前后音框的影響;將音框通過低通濾波器,可去除異常高起的噪聲。3特征提取經(jīng)過預處理后,幾秒鐘的語音就會產(chǎn)生很大
4、的數(shù)據(jù)量。提取說話人特征的過程,實際上就是去除原來語音中的冗余信息,減小數(shù)據(jù)量的過程。特征參數(shù)應滿足以下準則:對局外變量(例如說話人的健康狀況和情緒,系統(tǒng)的傳輸特性等)不敏感;能夠長期地保持穩(wěn)定;可經(jīng)常表現(xiàn)出來;易于進行測量;與其他特征不相關(guān)。根據(jù)參數(shù)的穩(wěn)定性,可把說話人特征參數(shù)分為兩類:①反映說話人生理結(jié)構(gòu)的固有特征(例如聲道結(jié)構(gòu)等),主要表現(xiàn)在語音的頻譜結(jié)構(gòu)上,包含了反映聲道共振的頻譜包絡特征信息和反映聲帶振動等音源特性的頻譜細節(jié)構(gòu)造特征信息,具有代表性的特征參數(shù)有基音和共振鋒,這類特征不易被模仿,但容易受健康狀況的影響;②反映聲道運動的動態(tài)特征,即發(fā)音
5、方式、發(fā)音習慣等,主要表現(xiàn)在語音頻譜結(jié)構(gòu)隨時間的變化上,包含了特征參數(shù)的動態(tài)特性,這類特征相對穩(wěn)定但比較容易模仿,代表性的特征參數(shù)是倒譜系數(shù)。LPCC參數(shù):能夠比較徹底地去除語音產(chǎn)生過程中的激勵信息,能較好描述語音信號的共振峰特性。在實際計算中,LPCC不是由信號直接得到的,而是由LPC求得。MFCC系數(shù):對已經(jīng)過預處理的語音向量分別進行離散傅里葉變換;將得到的離散頻譜用序列三角濾波器進行濾波處理,得到一組系數(shù);利用離散余弦變換將濾波器輸出變換到倒譜域其他特征:基音周期,倒譜特征,短時能量與短時平均幅度,短時平均過零率4說話人模型識別模型:指用什么模型來描述
6、說話人的語音特征在特征空間的分布。目前常用的模型可以分為參數(shù)模型、非參數(shù)模型、人工神經(jīng)網(wǎng)絡模型以及支撐向量機。參數(shù)模型是指采用某種特定的概率密度函數(shù)來描述說話人的語音特征在特征空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)來作為說話人的模型。典型的參數(shù)模型:高斯混合模型和隱馬爾可夫模型非參數(shù)模型:指說話人模型是由語音特征經(jīng)過某種運算直接得來的,典型的非參數(shù)模型是模板匹配方法和矢量量化模型。5難點和熱點目前還沒有很好的方法把說話人特征從說話人的語音特征中分離出來;說話人的特征具有長時變動特性,會隨著時間、年齡、健康狀況的變化而變化;聲音容易被錄音模仿;語音信號在
7、電話線路上傳輸時會產(chǎn)生較大失真。由此可見,說話人識別的難點問題主要集中在特征提取部分,能否使用相對簡單的方法提取到一種最能體現(xiàn)說話人個性信息的特征將是今后研究的熱點。