資源描述:
《基于內(nèi)容的音樂檢索研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士論文基于內(nèi)容的音樂檢索研究表整個樂段的信息,必須采用其他的方式來表示音樂。目前最常用的音樂信號表示方法是有序特征向量法,這種方法以幀為單位,對采樣點進(jìn)行各種各樣的特征值抽取,產(chǎn)生一組數(shù)值表示的、有序的、時間相關(guān)的特征向量。從而使音樂信息的存儲、查詢信息的特征抽取、不同音樂信息相似度的計算等步驟都建立在有序特征向量的基礎(chǔ)上。(2)音高:每個人嗓音都各有特點,樂感也不盡相同。因此,客戶端識別出的音律與真實旋律之間往往會有較大偏差。最常見的現(xiàn)象就是“走調(diào)”:唱一首歌時整體旋律同時升高或降低了八度。在這種情況下,所有音符都會大大偏離標(biāo)準(zhǔn)值,匹配精度無法保證。事實上,
2、我們可以只發(fā)送音調(diào)的變化信息(音符差)到服務(wù)器,這樣既提高了識別的魯棒性,又能減少發(fā)送字節(jié)數(shù)。通常,可以利用三個字符S.same、U.up、D.down,也可以用來表示音樂的旋律輪廓[io】。音樂音調(diào)輪廓描述了相對音調(diào)的變化,忽略了音樂的節(jié)奏信息,也忽略了音調(diào)的精確變化。一段旋律中的字符表示當(dāng)前音符與其前面的音符的比較,S表示音調(diào)的重復(fù),U表示比其前面音符的音調(diào)高,D表示比其前面音符的音調(diào)低。如12233221可以表示為:USUSSDSD。旋律的音調(diào)輪廓同樣會丟失音樂信息。這樣雖然可以減少搜索空間,但同時也使搜索變得不精確,對于一個大型數(shù)據(jù)庫來說查找的結(jié)果過多,
3、不利于找到要搜索的目標(biāo)。為了找到目標(biāo)歌曲,需要較長的輸入串,這會與用戶對歌曲的記憶的長度相矛盾。(3)音長:在旋律中,音長具有較強的相對性,同一個音,即使持續(xù)時間完全一致,在不同的旋律中仍然有可能讓人感覺到長短差異。如果一個音,它周圍的其它音節(jié)都比它短,那聽起來就自然顯得長,反之則短。另外音樂是有節(jié)奏感的,如何體現(xiàn)出旋律中的節(jié)拍?同樣一首歌,每個人唱得快慢隨意,如何利用音長信息匹配旋律?在設(shè)計中采用相對音長編碼的手段來解決【111,只考慮相鄰兩音符之間的音長比。在現(xiàn)有研究中大多用音樂信號的某一種信號特征或幾種信號特征的組合來對音調(diào)持續(xù)時間長短、輕重及音調(diào)間的高低
4、變化進(jìn)行表示。2.2聲音信號的處理和分析旋律提取功能模塊的主要任務(wù)是對輸入音頻做一系列時域和頻域上的信號處理,從中提取出旋律特征,包括組成旋律的每個音符的頻率和節(jié)奏,最后轉(zhuǎn)換為匹配算法要求的音符序列。2.2.1預(yù)處理實際的語音信號常?;祀s著強烈的背景噪聲及共振峰頻率,使語音信號的波形變得非常復(fù)雜,這常常給特征的提取造成困難。因此,在分析音樂信號、提取音樂特征2旋律特征的提取碩士論文信號之前,需要預(yù)先實施一些經(jīng)常使用的、共同的短時分析處理,如音樂信號的濾波去噪聲、預(yù)加重、加窗和分幀等處理【12】。預(yù)處理的主要任務(wù)就是在特征提取前得到濁音段,并盡量去除背景噪聲及共振
5、峰的影響。(1)音樂信號的濾波處理對于由麥克風(fēng)錄音輸入的音樂信號,在其由量化轉(zhuǎn)換為數(shù)字化的時候會產(chǎn)生量化噪聲,同時還會存在電源工頻干擾、混疊干擾等。為了減少這些噪聲對音樂信號的分析和特征參數(shù)的提取產(chǎn)生干擾,首先要對待處理的音樂信號進(jìn)行濾波處理??梢栽O(shè)計一種帶通濾波器來實現(xiàn)濾波處理。(2)音樂信號的預(yù)加重處理對于哼唱輸入的音樂信號,由于其平均功率譜受到聲門激勵,以及口鼻輻射的高頻端大約在800HZ以上按6dB/倍頻程跌落,所以在求語音信號頻譜時,頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理過程中進(jìn)行預(yù)加重處理。預(yù)加重的目的是提升高頻部分,
6、使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。(3)音樂信號的加窗和分幀處理在進(jìn)行音頻特征自動抽取之前,首先要對音頻文件做加窗處理,即把音頻文件劃分成一個個小段,每個小段稱為一幀,一般每幀的長度為10-30毫秒,但是為了使幀與幀之間平滑過渡保持其連續(xù)性,相鄰的兩幀之間有幾毫秒的重疊。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取為0~1/2,如圖2.1所示。渡形0l24567S910ll1213141516時闖(抄)出呂出岜圖2.1音樂信號分幀示意圖分幀是用可移動的有限長度窗口進(jìn)行加權(quán)的方法來
7、實現(xiàn)的,較常用到的窗函數(shù)是矩形窗和漢明窗。窗形的選擇對音樂信號分析來說是比較重要的。矩形窗的譜平滑性能較好,但損失了高頻成分,使波形細(xì)節(jié)丟失,而漢明窗則相反。6碩士論文基于內(nèi)容的音樂檢索研究窗函數(shù)的選擇(形狀和長度)對于短時分析參數(shù)的特性影響很大。雖然不同的短時分析方法(時域、頻域、倒譜分析)以及求取不同的語音特征參數(shù)可能對窗函數(shù)的要求不盡一樣,但一般來講,一個好的窗函數(shù)的標(biāo)準(zhǔn)是:在時域中,因為是語音波形乘以窗函數(shù),所以要減小時間窗兩端的坡度,使窗口邊緣兩端不引起急劇變化而平滑過渡到零,這樣就可以使截取出的語音波形緩慢降為零,從而減小語音幀的截斷效應(yīng);在頻域要有
8、較寬的3dB帶寬以及較小