資源描述:
《基于內(nèi)容的音樂檢索研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士論文基于內(nèi)容的音樂檢索研究表整個(gè)樂段的信息,必須采用其他的方式來表示音樂。目前最常用的音樂信號(hào)表示方法是有序特征向量法,這種方法以幀為單位,對采樣點(diǎn)進(jìn)行各種各樣的特征值抽取,產(chǎn)生一組數(shù)值表示的、有序的、時(shí)間相關(guān)的特征向量。從而使音樂信息的存儲(chǔ)、查詢信息的特征抽取、不同音樂信息相似度的計(jì)算等步驟都建立在有序特征向量的基礎(chǔ)上。(2)音高:每個(gè)人嗓音都各有特點(diǎn),樂感也不盡相同。因此,客戶端識(shí)別出的音律與真實(shí)旋律之間往往會(huì)有較大偏差。最常見的現(xiàn)象就是“走調(diào)”:唱一首歌時(shí)整體旋律同時(shí)升高或降低了八度。在這種情況下,所有音符都會(huì)大大偏離標(biāo)準(zhǔn)值,匹配精度無法保證。事實(shí)上,
2、我們可以只發(fā)送音調(diào)的變化信息(音符差)到服務(wù)器,這樣既提高了識(shí)別的魯棒性,又能減少發(fā)送字節(jié)數(shù)。通常,可以利用三個(gè)字符S.same、U.up、D.down,也可以用來表示音樂的旋律輪廓[io】。音樂音調(diào)輪廓描述了相對音調(diào)的變化,忽略了音樂的節(jié)奏信息,也忽略了音調(diào)的精確變化。一段旋律中的字符表示當(dāng)前音符與其前面的音符的比較,S表示音調(diào)的重復(fù),U表示比其前面音符的音調(diào)高,D表示比其前面音符的音調(diào)低。如12233221可以表示為:USUSSDSD。旋律的音調(diào)輪廓同樣會(huì)丟失音樂信息。這樣雖然可以減少搜索空間,但同時(shí)也使搜索變得不精確,對于一個(gè)大型數(shù)據(jù)庫來說查找的結(jié)果過多,
3、不利于找到要搜索的目標(biāo)。為了找到目標(biāo)歌曲,需要較長的輸入串,這會(huì)與用戶對歌曲的記憶的長度相矛盾。(3)音長:在旋律中,音長具有較強(qiáng)的相對性,同一個(gè)音,即使持續(xù)時(shí)間完全一致,在不同的旋律中仍然有可能讓人感覺到長短差異。如果一個(gè)音,它周圍的其它音節(jié)都比它短,那聽起來就自然顯得長,反之則短。另外音樂是有節(jié)奏感的,如何體現(xiàn)出旋律中的節(jié)拍?同樣一首歌,每個(gè)人唱得快慢隨意,如何利用音長信息匹配旋律?在設(shè)計(jì)中采用相對音長編碼的手段來解決【111,只考慮相鄰兩音符之間的音長比。在現(xiàn)有研究中大多用音樂信號(hào)的某一種信號(hào)特征或幾種信號(hào)特征的組合來對音調(diào)持續(xù)時(shí)間長短、輕重及音調(diào)間的高低
4、變化進(jìn)行表示。2.2聲音信號(hào)的處理和分析旋律提取功能模塊的主要任務(wù)是對輸入音頻做一系列時(shí)域和頻域上的信號(hào)處理,從中提取出旋律特征,包括組成旋律的每個(gè)音符的頻率和節(jié)奏,最后轉(zhuǎn)換為匹配算法要求的音符序列。2.2.1預(yù)處理實(shí)際的語音信號(hào)常常混雜著強(qiáng)烈的背景噪聲及共振峰頻率,使語音信號(hào)的波形變得非常復(fù)雜,這常常給特征的提取造成困難。因此,在分析音樂信號(hào)、提取音樂特征2旋律特征的提取碩士論文信號(hào)之前,需要預(yù)先實(shí)施一些經(jīng)常使用的、共同的短時(shí)分析處理,如音樂信號(hào)的濾波去噪聲、預(yù)加重、加窗和分幀等處理【12】。預(yù)處理的主要任務(wù)就是在特征提取前得到濁音段,并盡量去除背景噪聲及共振
5、峰的影響。(1)音樂信號(hào)的濾波處理對于由麥克風(fēng)錄音輸入的音樂信號(hào),在其由量化轉(zhuǎn)換為數(shù)字化的時(shí)候會(huì)產(chǎn)生量化噪聲,同時(shí)還會(huì)存在電源工頻干擾、混疊干擾等。為了減少這些噪聲對音樂信號(hào)的分析和特征參數(shù)的提取產(chǎn)生干擾,首先要對待處理的音樂信號(hào)進(jìn)行濾波處理??梢栽O(shè)計(jì)一種帶通濾波器來實(shí)現(xiàn)濾波處理。(2)音樂信號(hào)的預(yù)加重處理對于哼唱輸入的音樂信號(hào),由于其平均功率譜受到聲門激勵(lì),以及口鼻輻射的高頻端大約在800HZ以上按6dB/倍頻程跌落,所以在求語音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理過程中進(jìn)行預(yù)加重處理。預(yù)加重的目的是提升高頻部分,
6、使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。(3)音樂信號(hào)的加窗和分幀處理在進(jìn)行音頻特征自動(dòng)抽取之前,首先要對音頻文件做加窗處理,即把音頻文件劃分成一個(gè)個(gè)小段,每個(gè)小段稱為一幀,一般每幀的長度為10-30毫秒,但是為了使幀與幀之間平滑過渡保持其連續(xù)性,相鄰的兩幀之間有幾毫秒的重疊。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取為0~1/2,如圖2.1所示。渡形0l24567S910ll1213141516時(shí)闖(抄)出呂出岜圖2.1音樂信號(hào)分幀示意圖分幀是用可移動(dòng)的有限長度窗口進(jìn)行加權(quán)的方法來
7、實(shí)現(xiàn)的,較常用到的窗函數(shù)是矩形窗和漢明窗。窗形的選擇對音樂信號(hào)分析來說是比較重要的。矩形窗的譜平滑性能較好,但損失了高頻成分,使波形細(xì)節(jié)丟失,而漢明窗則相反。6碩士論文基于內(nèi)容的音樂檢索研究窗函數(shù)的選擇(形狀和長度)對于短時(shí)分析參數(shù)的特性影響很大。雖然不同的短時(shí)分析方法(時(shí)域、頻域、倒譜分析)以及求取不同的語音特征參數(shù)可能對窗函數(shù)的要求不盡一樣,但一般來講,一個(gè)好的窗函數(shù)的標(biāo)準(zhǔn)是:在時(shí)域中,因?yàn)槭钦Z音波形乘以窗函數(shù),所以要減小時(shí)間窗兩端的坡度,使窗口邊緣兩端不引起急劇變化而平滑過渡到零,這樣就可以使截取出的語音波形緩慢降為零,從而減小語音幀的截?cái)嘈?yīng);在頻域要有
8、較寬的3dB帶寬以及較小