資源描述:
《語音處理與語音識別簡介ppt課件.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、語音處理與語音識別簡介2014年9月1主要內(nèi)容數(shù)字音頻基礎(chǔ)知識音頻處理基礎(chǔ)知識語音識別技術(shù)簡介2主要內(nèi)容數(shù)字音頻基礎(chǔ)知識音頻處理基礎(chǔ)知識語音識別技術(shù)簡介3●是指自然聲●是機械振動在彈性介質(zhì)中傳播的機械波●是隨時間連續(xù)變化的物理量●聲音概念●振幅—波的高低幅度,表示聲音的強弱●周期—兩個相鄰波之間的時間長度●頻率—每秒鐘波振動的次數(shù),單位是Hz●聲音特性4聲音的強度(響度或音量),與聲波振幅成正比;唱盤、CD盤等聲音載體中的音強不變,通過播放設(shè)備的音量控制可改變聆聽時強度;音頻處理軟件可提高聲源音強聲音的特色,主
2、要影響因素是復音;復音指具有不同頻率和不同振幅的混合聲音,其中最低頻率是“基音”,是聲音的基調(diào),其他頻率的聲音為“諧音(泛音)”代表聲音的高低,與頻率有關(guān);使用音頻處理軟件對聲音的頻率進行調(diào)整時,其音調(diào)也會隨之發(fā)生變化●聲音的三要素●音調(diào)——(高低)●音強——(強弱)●音色——(特質(zhì))5●聲音的頻率范圍6數(shù)字音頻聲音是振動的機械波,話筒把機械振動轉(zhuǎn)換成電信號,用隨時間連續(xù)變化的物理量表示,稱之為模擬音頻。在計算機內(nèi)部,所有的信息均以數(shù)字表示,代表聲音信號的物理量也用一系列數(shù)字表示,稱之為數(shù)字音頻。模擬音頻在時間
3、上是連續(xù)的,而數(shù)字音頻則是一個數(shù)據(jù)序列,在時間上不具備連續(xù)性,因此只能是斷續(xù)的。當把模擬聲音變成數(shù)字聲音時,需要每隔一個時間間隔在模擬聲音波形上取一個電壓幅度值,稱之為采樣。采樣得到的表示聲音強弱的模擬電壓幅值是連續(xù)的,把無窮多個電壓幅值用有限個數(shù)字表示,稱之為量化。7●采樣采樣過程按固定間隔采樣聲音波形采樣聲音波形之后的結(jié)果聲波是連續(xù)信號,或稱連續(xù)時間函數(shù)x(t)。用計算機處理這些信號時應(yīng)先離散化,即按一定的時間間隔(T)取值,得到x(nT)(n為整數(shù)),T稱采樣周期,1/T稱采樣頻率(每秒鐘采樣次數(shù)),x(
4、nT)稱采樣值(或離散信號)采樣概念8設(shè)連續(xù)信號x(t)的頻譜為x(f),以采樣間隔T采樣得到離散信號x(nT)如果滿足:當
5、f
6、≥fc(fc是信號高端截止頻率)時,有T≤1/(2fc)或fc≤1/(2T)則可由x(nT)完全確定x(t)。當fN=1/(2T)時,稱fN為奈奎斯特頻率采樣定理奈奎斯特(Nyqust)采樣定理:只要采樣頻率大于或者等于信號中所包含的最高頻率的兩倍;即當信號是最高頻率時,每個周期至少采樣兩個點,則理論上就可以完全恢復原來的信號。●采樣采樣方法語音信號頻譜在高頻處迅速下降,但非限帶。應(yīng)
7、用時只對一定頻率范圍內(nèi)的信號感興趣,就可以對經(jīng)濾波限帶的音頻信號采樣。這樣,在采樣前,用一個銳截止模擬低通濾波器對音頻信號進行濾波。9●量化通過采樣得到的表示聲音強弱的函數(shù)x(nT)是連續(xù)的,為把x(nT)存入計算機,就必須將采樣值離散化,即量化成一個有限個幅度值的集合x(nT)量化概念量化原理先將整個幅度劃分成為有限個小幅度(量化階距)的集合,把落入某個階距內(nèi)的樣值歸為一類,并賦予相同的量化值。如果量化值是均勻分布的,稱為均勻量化。設(shè)?為量化階距,量化器最大范圍是Xmax,則:?=2Xmax/2B量化電壓幅值
8、之后的結(jié)果10●編碼音頻模擬信號經(jīng)過采樣與量化之后,為把數(shù)字化音頻存入計算機,需對其編碼,即用二進制數(shù)表示每個采樣的量化值,完成整個模數(shù)轉(zhuǎn)換過程編碼概念PCM編碼一種最方便簡單的編碼方法是脈沖編碼調(diào)制,常稱為PCM(PulseCodeModulation)編碼。是一種未經(jīng)壓縮的數(shù)字音頻信號,常作為一種參考信號,以便其他編碼方法與之比較,或者在此基礎(chǔ)上作進一步壓縮編碼處理11衡量一種編碼方法的性能有兩個主要指標:碼流速率和量化噪聲碼流速率指的是音頻信號編碼后每秒鐘產(chǎn)生的數(shù)據(jù)流量,以kbit/s為單位表示,也可以表
9、示為kbps。例如對普通模擬話音用8kHz的頻率采樣并以8位量化和編碼,所形成的音頻數(shù)字信號的碼率便是64kbps。量化噪聲是由量化失真引起的噪聲,通常表示為量化后的音頻信號噪聲比,簡稱信噪比。每增加1位量化精度,信噪比即提高6db。例如在高保真音響系統(tǒng)中,要求信噪比大于90db,則量化精度必須在16位以上?!窬幋a12聲道(SoundChannel)是指聲音在錄制或播放時在不同空間位置采集或回放的相互獨立的音頻信號,所以聲道數(shù)也就是聲音錄制時的音源數(shù)量或回放時相應(yīng)的揚聲器數(shù)量。單聲道(mono):只有一個聲道。
10、普通的單聲道錄放系統(tǒng)使用一只話筒錄音,信號錄在一條軌跡上,放音時使用一路放大器和一只揚聲器,所以重放出來的聲音是一個點聲源?!衤暤懒Ⅲw聲(stereo):有兩個聲道。在錄制聲音時,在不同的位置用兩只話筒進行錄音,而在重放時則使用兩路獨立的放大器和兩個揚聲器,從而使聽者可以較準確地判斷出錄音中不同音源的準確位置。1314WAV為微軟公司(Microsoft)開發(fā)的一種聲音文件格式非壓縮,