資源描述:
《廈大MATLAB課件第3章.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第三章語音信號的短時時域分析3.1概述13.2語音信號的預(yù)處理3.3短時平均能量33.4短時平均幅度函數(shù)43.5短時平均過零率53.6短時自相關(guān)分析623.7基于能量和過零率的語音端點檢測73.8基音周期估值83.1概述語音信號是一種非平穩(wěn)的時變信號,它攜帶著各種信息。在語音編碼、語音合成、語音識別和語音增強等語音處理中都需要提取語音中包含的各種信息。語音處理的目的:對語音信號進行分析,提取特征參數(shù),用于后續(xù)處理;加工語音信號。總之,語音信號分析的目的就在于方便有效的提取并表示語音信號所攜帶的信息。根據(jù)所
2、分析的參數(shù)類型,語音信號分析可以分成時域分析和變換域(頻域、倒譜域)分析。其中時域分析方法是最簡單、最直觀的方法,它直接對語音信號的時域波形進行分析,提取的特征參數(shù)主要有語音的短時能量和平均幅度、短時平均過零率、短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)等。3.2語音信號的預(yù)處理在對語音信號進行數(shù)字處理之前,首先要將模擬語音信號s(t)離散化為s(n).實際中獲得數(shù)字語音的途徑一般有兩種,正式的和非正式的。正式的是指大公司或語音研究機構(gòu)發(fā)布的被大家認可的語音數(shù)據(jù)庫,非正式的則是研究者個人用錄音軟件或硬件電路加麥克
3、風(fēng)隨時隨地錄制的一些發(fā)音或語句。語音信號的頻率范圍通常是300~3400Hz,一般情況下取采樣率為8kHz即可。本書的數(shù)字語音處理對象為語音數(shù)據(jù)文件,是已經(jīng)數(shù)字化了的語音。有了語音數(shù)據(jù)文件后,對語音的預(yù)處理包括:預(yù)加重、加窗分幀等。3.2.1語音信號的預(yù)加重處理預(yù)加重目的:為了對語音的高頻部分進行加重,去除口唇輻射的影響,增加語音的高頻分辨率。可通過一階FIR高通數(shù)字濾波器來實現(xiàn):設(shè)n時刻的語音采樣值為x(n),經(jīng)過預(yù)加重處理后的結(jié)果為高通濾波器的幅頻特性和相頻特性如下預(yù)加重前和預(yù)加重后的一段語音信號時域
4、波形預(yù)加重前和預(yù)加重后的一段語音信號頻譜3.2.2語音信號的加窗處理由于發(fā)音器官的慣性運動,可以認為在一小段時間里(一般為10ms~30ms)語音信號近似不變,即語音信號具有短時平穩(wěn)性。這樣,可以把語音信號分為一些短段(稱為分析幀)來進行處理。語音信號的分幀實現(xiàn)方法:采用可移動的有限長度窗口進行加權(quán)的方法來實現(xiàn)的。一般每秒的幀數(shù)約為33~100幀。分幀一般采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取為0~1/2。圖3.3給出了幀移
5、與幀長示意圖。加窗常用的兩種方法:矩形窗,窗函數(shù)如下:漢明(Hamming)窗,窗函數(shù)如下矩形窗及其頻譜如下漢明窗及其頻譜如下思考:兩種窗效果有何異同?加窗方法示意圖:窗長的選擇一般選取100~200。原因如下:當(dāng)窗較寬時,平滑作用大,能量變化不大,故反映不出能量的變化。當(dāng)窗較窄時,沒有平滑作用,反映了能量的快變細節(jié),而看不出包絡(luò)的變化。語音信號的分幀處理,實際上就是對各幀進行某種變換或運算。設(shè)這種變換或運算用T[]表示,x(n)為輸入語音信號,w(n)為窗序列,h(n)是與w(n)有關(guān)的濾波器,則各幀經(jīng)
6、處理后的輸出可以表示為:幾種常見的短時處理方法是:1.對應(yīng)于能量;2.,對應(yīng)于平均過零率;3.對應(yīng)于自相關(guān)函數(shù);3.3短時平均能量1.短時平均能量定義定義n時刻某語音信號的短時平均能量En為:當(dāng)窗函數(shù)為矩形窗時,有若令則短時平均能量可以寫成:2.En特點:En反映語音信號的幅度或能量隨時間緩慢變化的規(guī)律。3.窗的長短對于能否由短時能量反映語音信號的幅度變化,起著決定性影響。如果窗選得很長,En不能反映語音信號幅度變化。窗選得太窄,En將不夠平滑。通常,當(dāng)取樣頻率為10kHz時,選擇窗寬度N=100~200
7、是比較合適的。不同矩形窗長N時的短時能量函數(shù)短時平均能量的主要用途如下:1)可以作為區(qū)分清音和濁音的特征參數(shù)。2)在信噪比較高的情況下,短時能量還可以作為區(qū)分有聲和無聲的依據(jù)。3)可以作為輔助的特征參數(shù)用于語音識別中。MATLAB的具體實現(xiàn)如下:1、用Cooledit讀入語音“我到北京去”。2、將讀入的語音文件wav保存為txt文件,設(shè)置采樣率為8kHz,16位,單聲道。3、把保存的文件zqq.txt讀入Matlab。fid=fopen('zqq.txt','rt');x=fscanf(fid,'%f')
8、;fclose(fid);4、對采集到的語音樣點值進行分幀。3.4短時平均幅度函數(shù)為了克服短時能量函數(shù)計算x2(m)的缺點,定義了短時平均幅度函數(shù):Mn與En的比較:1.Mn能較好地反映清音范圍內(nèi)的幅度變化;2.Mn所能反映幅度變化的動態(tài)范圍比En好;3.Mn反映清音和濁音之間的電平差次于En。短時平均幅度函數(shù)隨矩形窗窗長N變化的情況3.5短時平均過零率1.定義在離散時間語音信號情況下,如果相鄰的采樣具有不同的代數(shù)符號就稱為發(fā)