基于語音存在概率的語音活動檢測方法

基于語音存在概率的語音活動檢測方法

ID:23852947

大?。?4.50 KB

頁數(shù):6頁

時間:2018-11-11

基于語音存在概率的語音活動檢測方法 _第1頁
基于語音存在概率的語音活動檢測方法 _第2頁
基于語音存在概率的語音活動檢測方法 _第3頁
基于語音存在概率的語音活動檢測方法 _第4頁
基于語音存在概率的語音活動檢測方法 _第5頁
資源描述:

《基于語音存在概率的語音活動檢測方法 》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于語音存在概率的語音活動檢測方法  【論文關(guān)鍵詞】語音增強 語音活動檢測 語音存在概率  【論文摘要】首先總結(jié)了幾種常見的語音活動檢測(VAD)方法,然后從計算每幀每個頻率點的語音存在概率出發(fā),提出了一種新的VAD方法,并就其中的一些參數(shù)選擇問題進行了討論。最后給出新方法與傳統(tǒng)方法實驗結(jié)果對比。  1引言  日常生活中,人們說話有間隙,有必要對一段語音進行檢測,以確定哪些時間上是有語音,哪些時間上沒有語音。在語音編碼中,語音活動檢測(VoiceActivityDetection,VAD)用來區(qū)分有語音段和無語音

2、段。如果一段時間被判斷為無語音段,則不需對其編碼。這樣可減少信道帶寬的占用,使有限的帶寬得到合理使用。在語音增強中,VAD用來判斷一段時間上是否存在語音。如果某段時間內(nèi)不存在語音,那么這段時間就只有噪聲存在,因此可以被用來估計和更新噪聲功率譜。在語音增強領(lǐng)域,VAD的性能往往直接影響到最后的結(jié)果。因為目前多數(shù)的語音增強算法必須對噪聲功率譜進行估計,如果噪聲功率譜估計不準確,就會導致最后的增益函數(shù)估計不準確。準確的噪聲功率譜估計須建立在準確的純噪聲段判斷的基礎(chǔ)上?! 」P者提出了一種新的VAD方法,這種方法建立在每幀

3、每個頻率點的語音存在概率的基礎(chǔ)上。根據(jù)概率大小判斷是否存在語音。  2語音存在概率估計  為進行VAD,首先對每幀每個頻率點進行語音存在概率估計,該估計大致分為兩步:(1)估計是否存在強語音成分;(2)估計語音不存在概率和語音存在概率。含噪語音由純凈語音和噪聲疊加而成,所以假設(shè)  Y(k,l)=X(k,l)+D(k,l)(1)  其中,Y(k,l)為含噪信號,X(k,l)為純凈語音,D(k,l)  為噪聲,k為某一幀的頻率點編號,l為幀編號。  2.1估計是否存在強語音成分  含噪語音中某些地方會有明顯的語音存在

4、,由于后面估計語音不存在概率需要用到相鄰幀的信息,所以強語音成分存在會嚴重影響到語音不存在概率估計。因此有必要先對某幀是否存在強語音進行判斷,如果是,那么在下面的語音不存在概率估計過程中將不會用到此幀的信息?! τ诤胄盘枺M行兩次平滑,一次是幀內(nèi)平滑,一次是幀間平滑。首先進行幀內(nèi)平滑    其中,αs為平滑參數(shù)且0<αs<1。然后搜索D幀中各頻率點的最小值,即Smin(k,l)=min{S(k,l′)

5、l-D+1≤l′≤l}(4)根據(jù)文獻[1]可找到Bmin,滿足E{Smin(k,l)}=B-1

6、min·λd(k,l)(5)也就是說可通過一個補償因子Bmin估計出當前幀的噪聲功率譜。定義    根據(jù)γmin和ζ,按照下面的判決準則,判斷當前幀是否含有強語音成分    其中,“0”為有強語音存在,“1”為沒有強語音存在,γ0=4.6,ζ0=1.67?! ?.2估計語音不存在概率和語音  存在概率利用前面強語音成分判斷的結(jié)果,可通過先排除含有強語音成分的頻率點,再進行幀內(nèi)平滑和幀間平滑,最后得到對應(yīng)于每幀每個頻率點的估計量。這個估計量反映了該幀每個頻率點上能量情況。如某幀是無語音幀,則其各頻率點上的估計量將會

7、較小。再通過對一段區(qū)間上搜索最小估計量,將搜索到的結(jié)果作為參照標準。當某幀某個頻率點的估計量超過參照標準的若干倍時,即判定此處含有語音,否則就不含有語音。首先,利用是否存在強語音的判決結(jié)果進行新的幀內(nèi)平滑和幀間平滑。先進行幀內(nèi)平滑    的計算用到了I(k,l),排除了強語音存在的頻率點。再進行幀間平滑    然后同前面估計是否存在強語音成分一樣,進行區(qū)間最小值搜索    定義  l)=E{D(k,l)2}。由于按照式(13)計算語音存在概率需要估計先驗信噪比ξ和后驗信噪比γ,如果估計不準確,必然導致VAD結(jié)果不

8、準確。故這里對此進行簡化,直接用1減去q(k,l)作為語音存在概率p(k,l)?! ?利用語音存在概率進行VAD  3.1檢測指標計算估計出語音存在概率后,還不能直接用來進行VAD,因為這些概率是針對每一個頻率點的,需要將這些信息轉(zhuǎn)換為某一幀的評價量。通過對語音存在概率隨時間和頻率點分布的觀察,發(fā)現(xiàn)有2項指標可被用來比較準確地辨別出有聲段和無聲段,分別是    其中,pt為某一幀所有頻率點的語音存在概率之和,pe為某一幀上語音存在概率為1的所有頻率點個數(shù),M為有頻率點數(shù)。但是,實驗表明,這兩個參數(shù)雖然總體上可以看

9、出哪些是無聲段哪些是有聲段,但起伏可能非常劇烈,所以需要進行平滑處理。設(shè)定    其中,采用了當前幀前面4幀的數(shù)據(jù)進行平滑?! ?.2參數(shù)設(shè)定  判斷是否存在語音主要看式(17)~(18)中2個指標是否超過某個門限。具體為    其中,式(19)~(20)對一段含噪信號最開始一段的2個指標求平均,然后利用式(21)~(22)得到正式的門限;ARTINR.Noisepoat

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。