資源描述:
《基于內(nèi)容的音樂信息檢索》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在工程資料-天天文庫。
1、基于內(nèi)容的音樂信息檢索音樂信息檢索是從音樂資源中找到滿足用戶所需信息的匹配、定位過程。傳統(tǒng)的基于文本描述的音樂檢索技術已經(jīng)無法滿足大量音頻數(shù)據(jù)的檢索需要,基于內(nèi)容的音頻信息檢索技術應運而生。。本文根據(jù)音樂檢索的研究現(xiàn)狀,論述了基于內(nèi)容的音樂檢索步驟,討論了音樂檢索系統(tǒng)的基本組成。關鍵詞:音樂檢索;音樂分類;音樂信息檢索系統(tǒng)1.序言 隨著多媒體和Inter的技術的發(fā)展和深入普及,推動著各種基于Inter的音頻應用逐步走向?qū)嵱?。各種音頻數(shù)據(jù)的數(shù)量正在呈指數(shù)增長,其信息量也在迅速膨脹。語音和音樂是兩類最重要的音頻信息。如何快速有效地在大量的音樂數(shù)據(jù)中查詢到所需要的內(nèi)容,已經(jīng)成為現(xiàn)代信息檢索領
2、域的一個研究重點?! ∧壳艾F(xiàn)有絕大多數(shù)的音樂搜索平臺都只支持文本的檢索,比如.baibu.。用戶可以通過歌名、歌詞等信息搜索到相關的音頻文件。但是,許多情況下,人們只記得一部分音樂內(nèi)容,比如旋律。他們希望可以通過這些信息直接搜索到相關的歌曲。如何基于實際音樂內(nèi)容快速查找到音樂信息成為當前的一個研究熱點?! ?.數(shù)字音頻 要對音樂信息進行搜索,首先就需要了解音頻信息的記錄方式。當前音頻信息聲音可通過多種格式進行存儲,總結下來基本上可以分為兩類:記錄聲音波形變化的格式(如IDI格式為代表)。 波形音頻文件是以數(shù)字方式來表示波形,使用采樣位數(shù)、采樣頻率和聲道數(shù)這三個參數(shù):對聲波進行采樣、量
3、化、編碼,最后轉(zhuǎn)換成數(shù)字形式,并壓縮儲存的聲音文件?! 《c波形文件相MIDI是MusicalInstrumentDigitalInterface的縮寫,又稱作樂器數(shù)字接口,是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標準。MIDI文件相對波形文件來說較小,它記錄的內(nèi)容是一系列可以被PC的聲卡解釋的數(shù)字音樂指令(音符)?! 〔ㄐ我纛l文件是對實時播放的音樂信號進行采樣和數(shù)字編碼,記錄了實際的演奏效果。而MIDI格式則是記錄的一系列音符的演奏信息,如音符的起始、結束、控制變化等等信息。 另外隨著X絡和多媒體技術的進一步發(fā)展,人們對于數(shù)字音頻技術的研究進一步深入,又出現(xiàn)了多種有損壓縮的編碼格式,這些編
4、碼格式,以極小的聲音失真換取了較高的壓縮比,比如在因特X上廣泛流傳的.MP3格式就是其中的代表?! ≌怯捎诓煌囊纛l記錄格式,并且在每一種格式下又各自有著一系列不同的格式,如何使不同的格式能夠統(tǒng)一為一種能夠為計算機檢索所識別的代碼就成為了音樂信息檢索面臨的主要問題?! ?.音樂信息檢索 鑒于音樂信息的多種多樣,目前針對音樂信息的提取也提出的了多種方法。其中大致可以分為基于旋律和基于內(nèi)容兩種方法?! ∮捎贛IDI音樂的編碼方式較為簡單,記錄的文件相對較小,目前音樂信息檢索的一個方向就是把復雜的波形文件進行一定的處理,使之成為一段類似于MIDI音樂文件的旋律編碼。目前有一些音樂信息檢索的
5、研究方向就是以MIDI文件為核心,把一系類不同格式的音樂文件通過系統(tǒng)自動分析和處理,轉(zhuǎn)化成為以記錄音樂文件旋律為主的MIDI文件,再通過與其他MIDI文件之間的相互匹配,最終達到查找出相似旋律文件的目的?! 《趦?nèi)容的音頻信息檢索技術則直接對音頻進行分析,從中抽取內(nèi)容特征,然后利用這些內(nèi)容特征建立索引并進行檢索,避免了用MIDI文件作為音頻信息的轉(zhuǎn)化過程。因而基于內(nèi)容的音頻數(shù)據(jù)信息檢索是目前發(fā)展比較迅速,研究較為深入的一個方向,它可以成為其他許多應用研究的基礎?! ?.基于內(nèi)容的音樂信息檢索4.1音頻的抽?。骸 ?shù)字音樂進行搜索的前提條件,就需要明確那一段音樂是我們要進行搜索的目標,
6、有的搜索是針對整個一個音樂文件而言,需要做到所有整個音樂文件的匹配,這樣的搜索相對費時,而有些搜索只要求搜索內(nèi)容相近,或者部分相似的內(nèi)容,這樣我們就不需要對整個音樂文件都去進行信息的抽取。在明確信息搜索的目標后,我們就需要對信息進行提取,目前提取特征有兩種方法:一是提取感性特征,如音高、響度、節(jié)奏;二是計算非感性屬性或稱物理特性,如Mel頻率倒頻譜系數(shù)、平均過零率、線性預測系數(shù)等4.2音頻的分類: 由于目前的數(shù)字音樂文件數(shù)量龐大,要將所有的文件都遍歷之后進行查詢顯然不可能。因此目前常用的方法主要是實現(xiàn)按一定的方法將音樂文件進行分類,如分為然后根據(jù)特征文件的分類按圖索驥去進行有針對的查找
7、?! ∧壳俺S玫囊纛l分類方法主要有: ?。?)基于決策樹的分類方法 所謂決策樹是一個類似流程圖的樹型結構,樹的每個結點代表一個屬性(取值)的測試,其分支代表測試結果,樹的每個葉結點代表-個類別。樹的最高層結點是根結點。 ?。?)神經(jīng)X絡分類算法 神經(jīng)X絡是一組相互連接的輸入輸出單元,這些單元之間的每個連接都關聯(lián)一個權重。在X絡學習階段,X絡通過調(diào)整權重來實現(xiàn)輸入樣本與其相應(正確)類別的對應。由于X絡學習主要是針對其中的連接權重