資源描述:
《基于語音存在概率的語音活動檢測方法.doc》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、基于語音存在概率的語音活動檢測方法 【論文關鍵詞】語音增強 語音活動檢測 語音存在概率 【論文摘要】首先總結了幾種常見的語音活動檢測(VAD)方法,然后從計算每幀每個頻率點的語音存在概率出發(fā),提出了一種新的VAD方法,并就其中的一些參數(shù)選擇問題進行了討論。最后給出新方法與傳統(tǒng)方法實驗結果對比。 1引言 日常生活中,人們說話有間隙,有必要對一段語音進行檢測,以確定哪些時間上是有語音,哪些時間上沒有語音。在語音編碼中,語音活動檢測(VoiceActivityDetection,VAD)用來區(qū)分有
2、語音段和無語音段。如果一段時間被判斷為無語音段,則不需對其編碼。這樣可減少信道帶寬的占用,使有限的帶寬得到合理使用。在語音增強中,VAD用來判斷一段時間上是否存在語音。如果某段時間內(nèi)不存在語音,那么這段時間就只有噪聲存在,因此可以被用來估計和更新噪聲功率譜。在語音增強領域,VAD的性能往往直接影響到最后的結果。因為目前多數(shù)的語音增強算法必須對噪聲功率譜進行估計,如果噪聲功率譜估計不準確,就會導致最后的增益函數(shù)估計不準確。準確的噪聲功率譜估計須建立在準確的純噪聲段判斷的基礎上?! 」P者提出了一種新的V
3、AD方法,這種方法建立在每幀每個頻率點的語音存在概率的基礎上。根據(jù)概率大小判斷是否存在語音?! ?語音存在概率估計 為進行VAD,首先對每幀每個頻率點進行語音存在概率估計,該估計大致分為兩步:(1)估計是否存在強語音成分;(2)估計語音不存在概率和語音存在概率。含噪語音由純凈語音和噪聲疊加而成,所以假設 Y(k,l)=X(k,l)+D(k,l)(1) 其中,Y(k,l)為含噪信號,X(k,l)為純凈語音,D(k,l) 為噪聲,k為某一幀的頻率點編號,l為幀編號。 2.1估計是否存在強語音成
4、分 含噪語音中某些地方會有明顯的語音存在,由于后面估計語音不存在概率需要用到相鄰幀的信息,所以強語音成分存在會嚴重影響到語音不存在概率估計。因此有必要先對某幀是否存在強語音進行判斷,如果是,那么在下面的語音不存在概率估計過程中將不會用到此幀的信息。4 對于含噪信號,要進行兩次平滑,一次是幀內(nèi)平滑,一次是幀間平滑。首先進行幀內(nèi)平滑 其中,αs為平滑參數(shù)且0<αs<1。然后搜索D幀中各頻率點的最小值,即Smin(k,l)=min{S(k,l′)
5、l-D+1≤l′≤l}(4)根據(jù)文獻
6、[1]可找到Bmin,滿足E{Smin(k,l)}=B-1min·λd(k,l)(5)也就是說可通過一個補償因子Bmin估計出當前幀的噪聲功率譜。定義 根據(jù)γmin和ζ,按照下面的判決準則,判斷當前幀是否含有強語音成分 其中,“0”為有強語音存在,“1”為沒有強語音存在,γ0=4.6,ζ0=1.67?! ?.2估計語音不存在概率和語音 存在概率利用前面強語音成分判斷的結果,可通過先排除含有強語音成分的頻率點,再進行幀內(nèi)平滑和幀間平滑,最后得到對應于每幀每個頻率點的估計量。這個估計量反映
7、了該幀每個頻率點上能量情況。如某幀是無語音幀,則其各頻率點上的估計量將會較小。再通過對一段區(qū)間上搜索最小估計量,將搜索到的結果作為參照標準。當某幀某個頻率點的估計量超過參照標準的若干倍時,即判定此處含有語音,否則就不含有語音。首先,利用是否存在強語音的判決結果進行新的幀內(nèi)平滑和幀間平滑。先進行幀內(nèi)平滑 的計算用到了I(k,l),排除了強語音存在的頻率點。再進行幀間平滑 然后同前面估計是否存在強語音成分一樣,進行區(qū)間最小值搜索 定義 l)=E{D(k,l)2}。由于按照式(13)計
8、算語音存在概率需要估計先驗信噪比ξ和后驗信噪比γ,如果估計不準確,必然導致VAD結果不準確。故這里對此進行簡化,直接用1減去q(k,l)作為語音存在概率p(k,l)。4 3利用語音存在概率進行VAD 3.1檢測指標計算估計出語音存在概率后,還不能直接用來進行VAD,因為這些概率是針對每一個頻率點的,需要將這些信息轉換為某一幀的評價量。通過對語音存在概率隨時間和頻率點分布的觀察,發(fā)現(xiàn)有2項指標可被用來比較準確地辨別出有聲段和無聲段,分別是 其中,pt為某一幀所有頻率點的語音存在概率之和,pe
9、為某一幀上語音存在概率為1的所有頻率點個數(shù),M為有頻率點數(shù)。但是,實驗表明,這兩個參數(shù)雖然總體上可以看出哪些是無聲段哪些是有聲段,但起伏可能非常劇烈,所以需要進行平滑處理。設定 其中,采用了當前幀前面4幀的數(shù)據(jù)進行平滑?! ?.2參數(shù)設定 判斷是否存在語音主要看式(17)~(18)中2個指標是否超過某個門限。具體為 其中,式(19)~(20)對一段含噪信號最開始一段的2個指標求平均,然后利用式(21)~(22)得到正式的門限;W為每幀有頻率點數(shù)。其判斷結