資源描述:
《低信噪比條件下的語音端點檢測與增強(qiáng)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、低信噪比條件下的語音端點檢測與增強(qiáng)1引言語音作為語言的聲學(xué)表現(xiàn),是聽覺器官對外界聲音傳播介質(zhì)機(jī)械振動的感知,是人類信息傳遞和情感交流的重要載體。目前,語音處理技術(shù)要求語音輸入在安靜的環(huán)境下進(jìn)行,當(dāng)周圍環(huán)境有噪聲時,系統(tǒng)性能會急劇下降。然而,語音通信過程不可避免地受到來自周圍環(huán)境、傳播介質(zhì)等噪聲的影響。語音增強(qiáng)是解決噪聲污染的一種有效方法,是語音處理領(lǐng)域的重要組成部分,廣泛應(yīng)用于語音識別和語音編碼等數(shù)字語音系統(tǒng)中。由于幾乎不可能從帶噪語音信號中提取純凈語音,語音增強(qiáng)主要是改善語音質(zhì)量,消除背景噪聲,提高清晰度和可懂度,使人樂于接受[1]。針對加性寬帶噪聲研究,當(dāng)
2、前國內(nèi)外語音增強(qiáng)的主要算法有頻譜相減法、自相關(guān)法、諧波增強(qiáng)法、自適應(yīng)噪聲對消法、小波變換法、聽覺掩蔽法、基于語音生成模型增強(qiáng)算法以及基于短時譜幅度估計算法,其中廣泛使用的主要是譜減法及其變體。譜減法簡單,運算量小,實時性強(qiáng),增強(qiáng)效果較好;缺點為僅從信噪比角度改善語音質(zhì)量,另外引入了音樂噪聲[2]。小波分解法和聽覺掩蔽法是人們研究的熱點,聽覺掩蔽法尚處于研究的初級階段。人耳能掩蔽語音信號中能量較小的噪聲,使得部分噪聲不為人們感知[3]。結(jié)合人耳聽覺掩蔽效應(yīng),筆者提出了改進(jìn)型的譜減法,對語音增強(qiáng)算法中相關(guān)參數(shù)進(jìn)行動態(tài)調(diào)整,有效抑制了音樂噪聲,提高了語音質(zhì)量。語音端
3、點檢測將采集的語音信號分為純噪聲段和帶噪語音段,判斷各語音片段的起止點,是語音增強(qiáng)算法和語音編碼的重要組成部分之一。在語音識別過程中,正確確定語音段的起止端點,可減少計算量和語音識別誤判率。目前,普遍采用的語音端點檢測方法,如利用頻域短時能量檢測方法,在低信噪比條件下,結(jié)果令人難以接受。筆者提出的采用混沌振子模型有效解決了低信噪比環(huán)境下語音端點檢測問題。2預(yù)備知識2.1混沌理論1963年,美國氣象學(xué)家E.Lorenz在《大氣科學(xué)》雜志上發(fā)文指出,在氣候不能精確重演與長期天氣預(yù)報無能為力之間存在一種必然聯(lián)系,還認(rèn)為一連串事件可能有一個臨界點,在這一點上,小的變化
4、可產(chǎn)生大的變化。因此,天氣預(yù)報和氣象學(xué)的研究開辟了混沌科學(xué)。隨后,T.S.Kuhn,李天巖,J.Yorke,R.May等對混沌進(jìn)行了大量研究與開發(fā)。混沌是確定性系統(tǒng)的內(nèi)在隨機(jī)性,其本質(zhì)是對初始條件的敏感依賴性。20世紀(jì)90年代后,混沌科學(xué)廣泛應(yīng)用于信息科學(xué)、數(shù)學(xué)、物理、生物、經(jīng)濟(jì)、氣象等領(lǐng)域[4]。物理學(xué)中Holmes型Duffing振子其中,c為阻尼系數(shù);Fcosωt為圓頻率ω周期激勵(參考信號),其狀態(tài)方程為研究發(fā)現(xiàn),當(dāng)不斷改變周期幅度F時,Duffing系統(tǒng)的相圖在周期和混沌問進(jìn)行轉(zhuǎn)換。經(jīng)分析可知,系統(tǒng)變化的決定性因素是F/c的大小。當(dāng)F/c逐漸增大時,
5、系統(tǒng)變化過程為:規(guī)則運動一混沌運動一規(guī)則運動。故可推斷規(guī)則和混沌之間必存在2個臨界狀態(tài)。因此,取F略小于臨界值,將待測信號作為周期激勵Fcosωt的微小攝動,利用周期激勵和待測信號的矢量和與臨界值的關(guān)系,通過相軌跡的變化來檢測待測信號?;贒uffing系統(tǒng)的檢測方法有2種:(1)利用Duffing系統(tǒng)的基本混沌特性,把待測信號的頻率取為周期策動力的頻率,利用二者幅度和來實現(xiàn)周期運動與混沌運動的轉(zhuǎn)變,缺點為測量頻率單一;(2)利用Duffing系統(tǒng)的間歇混沌特性檢測待測信號,優(yōu)點為測量頻率范圍較寬。筆者采用后者檢測語音端點。2.2漢語語音的特點語音主要由清音和
6、濁音組成。濁音在頻域有共振峰,能量大部分集中在低頻階段,在時域呈現(xiàn)周期性;清音沒有明顯的時域和頻域特性。語音是非遍歷、非平穩(wěn)的隨機(jī)過程,但人的發(fā)音系統(tǒng)的生理結(jié)構(gòu)在一段時間(10~30ms)變化有一定限度,故語音的短時譜具有相對穩(wěn)定性。語音短時譜幅度統(tǒng)計是時變的,只有當(dāng)分析幀長趨于無窮大時,近似認(rèn)為高斯分布。2.3人耳的感知特點語音增強(qiáng)效果取決于人耳的主觀感受,人耳對背景噪聲有很強(qiáng)的抑制作用。感知機(jī)理涉及生理學(xué)、心理學(xué)、語音學(xué)和聲學(xué)等領(lǐng)域,有待進(jìn)一步研究。不過,目前已有些研究結(jié)論:人耳對語音的感知是通過語音信號頻譜幅度獲得的,對相位不敏感;具有聽覺掩蔽效應(yīng),即強(qiáng)
7、信號對弱信號有抑制作用,掩蔽程度是聲音強(qiáng)度和頻率的二元函數(shù),對頻率臨近分量的掩蔽程度比頻差較大分量嚴(yán)重得多,高頻對低頻的掩蔽弱于低頻對高頻的掩蔽;短時譜共振峰對語音感知很重要,第三個共振峰后,波峰能量迅速減少,故對語音信號進(jìn)行適度高通濾波影響不大。2.4噪聲特點噪聲分為加性和非加性噪聲。加性噪聲通常分為沖擊噪聲、周期性噪聲和寬帶噪聲等。有些非加性噪聲可通過適當(dāng)?shù)奶幚磙D(zhuǎn)換成加性噪聲,比如,乘性噪聲可通過同態(tài)變換轉(zhuǎn)換為加性噪聲;有些與信號相關(guān)的量化噪聲可通過偽隨機(jī)噪聲擾動變成信號獨立的加性噪聲。噪聲改變了語音信號原有的聲學(xué)特征和模型。寬帶噪聲來源廣泛,包括一般隨機(jī)
8、噪聲源,因其與語音在時域和頻域完全重疊