資源描述:
《基于隱馬爾可夫模型的音頻自動分類》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、1000-9825/2002/13(08)1593-05?2002JournalofSoftware軟件學(xué)報Vol.13,No.8基于隱馬爾可夫模型的音頻自動分類?盧堅,陳毅松,孫正興,張福炎(南京大學(xué)計算機科學(xué)與技術(shù)系,江蘇南京210093);(南京大學(xué)計算機軟件新技術(shù)國家重點實驗室,江蘇南京210093)E-mail:jlu@graphics.nju.edu.cnhttp://www.nju.edu.cn摘要:音頻的自動分類,尤其是語音和音樂的分類,是提取音頻結(jié)構(gòu)和內(nèi)容語義的重要手段之一,它在基于內(nèi)容的音頻檢索
2、、視頻的檢索和摘要以及語音文檔檢索等領(lǐng)域都有重大的應(yīng)用價值.由于隱馬爾可夫模型能夠很好地刻畫音頻信號的時間統(tǒng)計特性,因此,提出一種基于隱馬爾可夫模型的音頻分類算法,用于語音、音樂以及它們的混合聲音的分類.實驗結(jié)果表明,隱馬爾可夫模型的音頻分類性能較好,最優(yōu)分類精度達到90.28%.關(guān)鍵詞:基于內(nèi)容的音頻分類;隱馬爾可夫模型;向量量化;MFCC(mel-frequencycepstralcoefficient)中圖法分類號:TP391文獻標(biāo)識碼:A音頻壓縮和Internet媒體流(mediastreaming)技術(shù)的
3、發(fā)展,推動著各種基于Internet的音頻應(yīng)用逐步走向?qū)嵱?但是,由于原始音頻數(shù)據(jù)除了含有采樣頻率、量化精度、編碼方法等有限的注冊信息外,本身僅僅是一種非語義符號表示和非結(jié)構(gòu)化的二進制流,缺乏內(nèi)容語義的描述和結(jié)構(gòu)化的組織,因而音頻的檢索和內(nèi)容過濾等應(yīng)用都受到極大的限制.如何提取音頻中的結(jié)構(gòu)化信息和內(nèi)容語義,使得無序的音頻數(shù)據(jù)變得有序,是基于內(nèi)容的音頻檢索技術(shù)能否得以實用的關(guān)鍵所在.音頻自動分類的早期研究工作以文獻[1,2]為代表.文獻[1]訓(xùn)練一種神經(jīng)元網(wǎng)絡(luò)直接將聲音類別映射到所標(biāo)注的文本.文獻[2]使用自組織映射
4、(self-organizingmapping,簡稱SOM)聚類算法對具有相似感覺特征的聲音[3]進行聚類.真正意義上的基于內(nèi)容的音頻自動分類工作是由美國MuscleFish公司ErlingWold等人完成的,他們詳細分析了音頻的區(qū)別性特征,包括響度(loudness)、音調(diào)(pitch)、亮度(brightness)、諧度(harmonicity)等,并且根據(jù)最近鄰準則(nearestneighbor,簡稱NN)和Mahalanobis距離設(shè)計音頻的分類器,所用的數(shù)據(jù)集包括笑聲、鈴聲、電話聲等16類共409個樣本
5、數(shù)據(jù).在文獻[3]提供的MuscleFish數(shù)據(jù)集上,文獻[4~6]采用不同的特征和分類器實現(xiàn)音頻的分類.其中,文獻[4]采用12階的MFCC系數(shù)和能量作為音頻的特征表示,根據(jù)極大互信息準則(maximummutualinformation,簡稱MMI)訓(xùn)練決策樹量化特征空間為離散的區(qū)域,并且根據(jù)最近鄰準則對音頻作分類,文獻[5,6]分別采用最近特征線(nearestfeatureline,簡稱NFL)和支持向量機(supportvectormachine,簡稱SVM)作為分類器.近年來,音頻的自動分類在視頻的檢索
6、和摘要、基于內(nèi)容的語音檢索等相關(guān)領(lǐng)域也日益引起了人們的重視.在視頻的檢索和摘要中,人們發(fā)現(xiàn)簡單的視覺特征,例如顏色、紋理、運動向量等并不能很好地反映視頻的內(nèi)容和結(jié)構(gòu)語義,而更高級的視覺語義特征的提取則相當(dāng)困難,因此,文獻[7~9]嘗試在視頻的檢索和摘要中結(jié)合音頻(語音、音樂)、文本(字幕、標(biāo)題)等信息,以克服單純的視覺特征語義表達能力較弱這一缺點.文獻[10,11]?收稿日期:2001-02-13;修改日期:2001-05-22基金項目:國家自然科學(xué)基金資助項目(69903006,60073030)作者簡介:盧堅(
7、1974-),男,浙江東陽人,博士,主要研究領(lǐng)域為音頻的分割,分類和檢索;陳毅松(1973-),男,四川資陽人,博士,主要研究領(lǐng)域為圖像壓縮;孫正興(1964-),男,江蘇蘇州人,博士,副教授,主要研究領(lǐng)域為CAD/CAM,數(shù)字圖書館;張福炎(1939-),男,浙江紹興人,教授,博士生導(dǎo)師,主要研究領(lǐng)域為多媒體技術(shù),數(shù)字圖書館.1594JournalofSoftware軟件學(xué)報2002,13(8)根據(jù)音頻特征分別訓(xùn)練OCON(one-class-in-one-network)神經(jīng)元網(wǎng)絡(luò)和隱馬爾可夫模型(hidden
8、Markovmodel,簡稱HMM)對電視節(jié)目作5種視頻場景的分類:天氣預(yù)報、新聞、廣告、足球和籃球.文獻[12]采用相位補償gamma濾波器組提取音頻特征,并用于音頻的分割、音樂內(nèi)容的分析、暴力鏡頭的檢測等方面.基于內(nèi)容的語音檢索機制有關(guān)鍵詞發(fā)現(xiàn)(keywordspotting)、子詞格(sub-wordlattice)索引和大詞匯量連續(xù)語音識別3種形式[