基于語音存在概率的語音活動檢測方法

ID：23852947

大?。?4.50 KB

頁數(shù)：6頁

時間：2018-11-11

資源描述：

《基于語音存在概率的語音活動檢測方法》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于語音存在概率的語音活動檢測方法　　【論文關(guān)鍵詞】語音增強　語音活動檢測　語音存在概率　　【論文摘要】首先總結(jié)了幾種常見的語音活動檢測（VAD）方法，然后從計算每幀每個頻率點的語音存在概率出發(fā)，提出了一種新的VAD方法，并就其中的一些參數(shù)選擇問題進行了討論。最后給出新方法與傳統(tǒng)方法實驗結(jié)果對比。　　1引言　　日常生活中，人們說話有間隙，有必要對一段語音進行檢測，以確定哪些時間上是有語音，哪些時間上沒有語音。在語音編碼中，語音活動檢測（VoiceActivityDetection，VAD）用來區(qū)分有語音段和無語音

2、段。如果一段時間被判斷為無語音段，則不需對其編碼。這樣可減少信道帶寬的占用，使有限的帶寬得到合理使用。在語音增強中，VAD用來判斷一段時間上是否存在語音。如果某段時間內(nèi)不存在語音，那么這段時間就只有噪聲存在，因此可以被用來估計和更新噪聲功率譜。在語音增強領(lǐng)域，VAD的性能往往直接影響到最后的結(jié)果。因為目前多數(shù)的語音增強算法必須對噪聲功率譜進行估計，如果噪聲功率譜估計不準確，就會導致最后的增益函數(shù)估計不準確。準確的噪聲功率譜估計須建立在準確的純噪聲段判斷的基礎(chǔ)上?！　」P者提出了一種新的VAD方法，這種方法建立在每幀

3、每個頻率點的語音存在概率的基礎(chǔ)上。根據(jù)概率大小判斷是否存在語音。　　2語音存在概率估計　　為進行VAD，首先對每幀每個頻率點進行語音存在概率估計，該估計大致分為兩步：（1）估計是否存在強語音成分；（2）估計語音不存在概率和語音存在概率。含噪語音由純凈語音和噪聲疊加而成，所以假設(shè)　　Y（k，l）=X（k，l）+D（k，l）（1）　　其中，Y（k，l）為含噪信號，X（k，l）為純凈語音，D（k，l）　　為噪聲，k為某一幀的頻率點編號，l為幀編號。　　2.1估計是否存在強語音成分　　含噪語音中某些地方會有明顯的語音存在

4、，由于后面估計語音不存在概率需要用到相鄰幀的信息，所以強語音成分存在會嚴重影響到語音不存在概率估計。因此有必要先對某幀是否存在強語音進行判斷，如果是，那么在下面的語音不存在概率估計過程中將不會用到此幀的信息?！　τ诤胄盘枺M行兩次平滑，一次是幀內(nèi)平滑，一次是幀間平滑。首先進行幀內(nèi)平滑　　　　其中，αs為平滑參數(shù)且0<αs<1。然后搜索D幀中各頻率點的最小值，即Smin（k，l）=min{S（k，l′）

5、l-D+1≤l′≤l}（4）根據(jù)文獻[1]可找到Bmin，滿足E{Smin（k，l）}=B-1

6、min·λd（k，l）（5）也就是說可通過一個補償因子Bmin估計出當前幀的噪聲功率譜。定義　　　　根據(jù)γmin和ζ，按照下面的判決準則，判斷當前幀是否含有強語音成分　　　　其中，“0”為有強語音存在，“1”為沒有強語音存在，γ0=4.6，ζ0=1.67?！　?.2估計語音不存在概率和語音　　存在概率利用前面強語音成分判斷的結(jié)果，可通過先排除含有強語音成分的頻率點，再進行幀內(nèi)平滑和幀間平滑，最后得到對應(yīng)于每幀每個頻率點的估計量。這個估計量反映了該幀每個頻率點上能量情況。如某幀是無語音幀，則其各頻率點上的估計量將會

7、較小。再通過對一段區(qū)間上搜索最小估計量，將搜索到的結(jié)果作為參照標準。當某幀某個頻率點的估計量超過參照標準的若干倍時，即判定此處含有語音，否則就不含有語音。首先，利用是否存在強語音的判決結(jié)果進行新的幀內(nèi)平滑和幀間平滑。先進行幀內(nèi)平滑　　　　的計算用到了I（k，l），排除了強語音存在的頻率點。再進行幀間平滑　　　　然后同前面估計是否存在強語音成分一樣，進行區(qū)間最小值搜索　　　　定義　　l）=E{D（k，l）2}。由于按照式（13）計算語音存在概率需要估計先驗信噪比ξ和后驗信噪比γ，如果估計不準確，必然導致VAD結(jié)果不

8、準確。故這里對此進行簡化，直接用1減去q（k，l）作為語音存在概率p（k，l）?！　?利用語音存在概率進行VAD　　3.1檢測指標計算估計出語音存在概率后，還不能直接用來進行VAD，因為這些概率是針對每一個頻率點的，需要將這些信息轉(zhuǎn)換為某一幀的評價量。通過對語音存在概率隨時間和頻率點分布的觀察，發(fā)現(xiàn)有2項指標可被用來比較準確地辨別出有聲段和無聲段，分別是　　　　其中，pt為某一幀所有頻率點的語音存在概率之和，pe為某一幀上語音存在概率為1的所有頻率點個數(shù)，M為有頻率點數(shù)。但是，實驗表明，這兩個參數(shù)雖然總體上可以看

9、出哪些是無聲段哪些是有聲段，但起伏可能非常劇烈，所以需要進行平滑處理。設(shè)定　　　　其中，采用了當前幀前面4幀的數(shù)據(jù)進行平滑?！　?.2參數(shù)設(shè)定　　判斷是否存在語音主要看式（17）~（18）中2個指標是否超過某個門限。具體為　　　　其中，式（19）~（20）對一段含噪信號最開始一段的2個指標求平均，然后利用式（21）~（22）得到正式的門限；ARTINR.Noisepoat

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于語音存在概率的語音活動檢測方法

基于語音存在概率的語音活動檢測方法

相關(guān)文章

相關(guān)標簽