資源描述:
《基于內(nèi)容的音頻檢索中特征提取方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、基于內(nèi)容的音頻檢索技術(shù)邢偉利,周明全(西北大學(xué)可視化研究所,陜西西安710069)摘要:提出了一種基于示例查詢的音頻檢索方法,包括音頻特征提取、相似音頻檢索及音頻分類,并通過已研制的基于內(nèi)容的音頻檢索系統(tǒng)進行了實現(xiàn),經(jīng)測試,此方法具有較高的準(zhǔn)確性。關(guān)鍵字:音頻檢索;特征提??;音頻分類中圖分類號:TP391.4文獻標(biāo)識碼:A 文章編號:1000-274X(2003)0054-08在當(dāng)今數(shù)字化與網(wǎng)絡(luò)化時代,圖像、音頻和視頻等多媒體內(nèi)容已成為互連網(wǎng)信息高速公路上所傳送數(shù)據(jù)的主要部分,基于文本的檢索方法已不能滿足數(shù)字化多媒體信息檢索的需要,基于
2、內(nèi)容的多媒體檢索技術(shù)應(yīng)運而生。由于原始音頻數(shù)據(jù)除了含有采樣頻率、量化精度、編碼方法等有限的注冊信息外,本身僅僅是一種非語義符號表示和非結(jié)構(gòu)化的二進制流,缺乏內(nèi)容語義的描述和結(jié)構(gòu)化的組織,因而音頻檢索受到極大的限制。相對于日益成熟的圖像與視頻檢索,音頻檢索相對滯后。因此,基于內(nèi)容的音頻檢索已成為多媒體檢索技術(shù)的研究熱點。目前一些基于文本的Web引擎,如Google,Baidu,功能已非常強大,但還缺乏比較實用的音頻搜索引擎。Internet上的多媒體流非常巨大,需要一些高效的搜索引擎從浩如煙海的數(shù)據(jù)中找出需要的信息。另外,音頻檢索在輔助視
3、頻檢索和卡拉OK檢索系統(tǒng)以及軍事、刑偵領(lǐng)域方面都有巨大的應(yīng)用價值和廣闊的研究前景。音頻包括語音和非語音(Non-speech)兩類信號。一直以來,音頻信號的處理主要集中于語音識別、說話者識別等語音處理方面的研究,如在語音識別方面IBM的ViaVoice已趨于成熟。但是,對于基于內(nèi)容的音頻信息檢索技術(shù)的研究還不多。只有在基于音頻物理特征的檢索技術(shù)方面有所突破,才可能在更高層次的基于知識輔助的音頻檢索方面做出更深入地研究。真正基于內(nèi)容的音頻檢索工作是由美國MuscleFish公司完成的,他們研究的系統(tǒng)可以對音頻進行檢索和分類,有較高的準(zhǔn)確率
4、?;趦?nèi)容的音頻技術(shù)尚有大量問題需要進一步深入研究。1 基于內(nèi)容的音頻檢索技術(shù)分析所謂基于內(nèi)容的音頻檢索,是指通過音頻特征分析,對不同音頻數(shù)據(jù)賦予不同的語義,使具有相同語義的音頻在聽覺上保持相似。1.1 音頻檢索的基本方法5音頻檢索第一步是建立數(shù)據(jù)庫,對音頻數(shù)據(jù)進行特征提取,并通過特征對數(shù)據(jù)聚類。音頻檢索主要采用示例查詢方式(Querybyexample),用戶通過查詢界面選擇一個查詢例子,并設(shè)定屬性值,然后提交查詢。系統(tǒng)對用戶選擇的示例提取特征,結(jié)合屬性值確定查詢特征矢量,并對特征矢量進行模糊聚類,然后檢索引擎對特征矢量與聚類參數(shù)集匹
5、配,按相關(guān)性排序后通過查詢接口返回給用戶。1.2音頻特征提取方法特征提取是指尋找原始音頻信號表達形式,提取能代表原始信號的數(shù)據(jù)。音頻特征提取有兩種不同的技術(shù)線路:一種是從疊加音頻幀中提取特征,其原因在于音頻信號是短時平穩(wěn)的,所以在短時提取的特征較穩(wěn)定;二是從音頻片段中提取,因為任何語義都有時間延續(xù)性,在長時間刻度內(nèi)提取音頻特征可以更好反映音頻所蘊涵的語義信息,一般是提取音頻幀的統(tǒng)計特征作為音頻片段特征。首先,對音頻數(shù)據(jù)進行加窗處理形成幀,加窗大小在幾到幾十微秒,相鄰幀之間一般有30%~50%的疊加。然后,對每一幀作離散傅立葉變換(DFT
6、),實際上常用快速傅立葉變換(FFT),得到傅立葉系數(shù)和頻域能量,其中,fs為采樣頻率。最后應(yīng)用不同算法計算相應(yīng)的幀特征,再計算幀特征的標(biāo)準(zhǔn)偏差、數(shù)學(xué)期望值和方差,把幀特征推廣成片段特征。1.2.1短時平均能量指在一個短時音頻窗口內(nèi)采樣點信號所聚集的平均能量。假定每個短時幀大小假定為N,為用Nyquist頻率采樣后的離散音頻信號。對于第m個短時幀,短時平均能量可以使用下面的公式計算短時平均能量可以直接應(yīng)用到靜音檢測(Silencedetection)。1.2.2過零率指在一個短時幀內(nèi),離散采樣信號值由正到負和由負到正變化的次數(shù)。,當(dāng)時,
7、;否則。過零率可用來區(qū)分語音和音樂兩種不同音頻信號。1.2.3頻率中心是度量聲音亮度(brightness)的指標(biāo),計算公式為1.2.4帶寬是衡量音頻頻域范圍的指標(biāo),其定義為其中FC(Frequencycentroid)為頻率中心。一般地,語音的帶寬范圍為0.3~3.4kHz,而音樂的帶寬范圍比較寬,可以在22.05kHz左右。1.2.1Mel對數(shù)倒譜系數(shù)MFCCMFCC在語音領(lǐng)域中得到廣泛的應(yīng)用。它是音頻數(shù)據(jù)經(jīng)Z變換和對數(shù)5處理后得出的結(jié)果,一般每段數(shù)據(jù)取12個系數(shù),可以較好地表現(xiàn)每段的特征。1.3 相似音頻例子檢索相似音頻例子檢索是
8、指基于用戶提交的查詢音頻,得到最相似的音頻,即計算音頻特征的距離。對音頻數(shù)據(jù)提取特征后,假設(shè)共N個特征,則形成了一個N維特征矢量的序列。為了縮減數(shù)據(jù)量而又不失掉每個音頻原來的特征,可以對N維特征矢量進行聚類