資源描述:
《探析語(yǔ)音通信中音質(zhì)客觀評(píng)價(jià)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、西南交通大學(xué)博士學(xué)位論文語(yǔ)音通信中音質(zhì)客觀評(píng)價(jià)研究姓名:陳華偉申請(qǐng)學(xué)位級(jí)別:博士專業(yè):交通信息工程及控制指導(dǎo)教師:靳蕃20061201西南交通大學(xué)博士研究生學(xué)位論文第1頁(yè)摘要現(xiàn)代通信系統(tǒng)提供了廣泛的語(yǔ)音服務(wù),語(yǔ)音通信已經(jīng)成為生活中不可或缺的交流方式。通信技術(shù)和通信服務(wù)的發(fā)展促進(jìn)了對(duì)通信系統(tǒng)性能的評(píng)價(jià)需求,評(píng)判語(yǔ)音通信系統(tǒng)性能優(yōu)劣的根本標(biāo)志之一是系統(tǒng)所輸出語(yǔ)音質(zhì)量的好壞,因此準(zhǔn)確有效的語(yǔ)音質(zhì)量評(píng)估技術(shù)是提高通信系統(tǒng)性能的關(guān)鍵技術(shù)。主觀評(píng)價(jià)能真實(shí)反映人對(duì)語(yǔ)音質(zhì)量的整體滿意程度,但主觀評(píng)價(jià)費(fèi)事費(fèi)時(shí)且不適合實(shí)時(shí)性場(chǎng)合。近年來(lái),以計(jì)算機(jī)
2、信息處理為核心的語(yǔ)音質(zhì)量客觀評(píng)價(jià)成為大家關(guān)注的研究熱點(diǎn)。本論文以軍事研究項(xiàng)目為背景,對(duì)通信中的語(yǔ)音質(zhì)量客觀評(píng)價(jià)展開(kāi)了廣泛深入的研究。本文首先闡述了語(yǔ)音質(zhì)量評(píng)價(jià)的含義,在介紹語(yǔ)音質(zhì)量客觀評(píng)價(jià)的原理及研究現(xiàn)狀之后,指出了客觀評(píng)價(jià)中存在的部分問(wèn)題,并簡(jiǎn)要說(shuō)明本論文的主要工作。第二章提出了一種語(yǔ)音特征參數(shù)MFSC,相比于MFCC,MFSC分析體現(xiàn)了更多的感知分析特性。將使用MFSC作為特征參數(shù)的客觀測(cè)度MeI-SD用于語(yǔ)音質(zhì)量評(píng)價(jià)測(cè)試,實(shí)驗(yàn)結(jié)果表明,相比于PESQ、Mel.CD,Mel.SD具有更好的客觀評(píng)價(jià)性能,且Mel.SD具有對(duì)
3、濾波器組構(gòu)造變化和壓縮因子變化的魯棒性。以改善客觀測(cè)度的評(píng)價(jià)性能為目標(biāo),第三章提出使用PS0算法獲取語(yǔ)音特征參數(shù)中各維分量對(duì)音質(zhì)客觀評(píng)價(jià)性能的相對(duì)重要性關(guān)系。論文通過(guò)將這個(gè)問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,分別使用實(shí)數(shù)編碼和二迸制編碼的PSO算法完成特征參數(shù)MFCC和MFSC各分量權(quán)系數(shù)的優(yōu)化和特征子集選擇的組合優(yōu)化,既得到特征參數(shù)分量之間的相對(duì)重要性關(guān)系,又有效地改善了Mel.CD和Mel—SD的評(píng)價(jià)性能。針對(duì)前向神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間長(zhǎng)及泛化性能不確定性的缺陷,論文提出了一種訓(xùn)練前向神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法一雙向權(quán)值調(diào)整算法(BPWA)。BPWA可
4、以在正向和反向階段對(duì)權(quán)值作出調(diào)整,且保證輸出權(quán)值是最小范數(shù)解,該算法具有較快的學(xué)習(xí)速度,并有利于保證所訓(xùn)練網(wǎng)絡(luò)的泛化性能。針對(duì)GCNN這種新型神經(jīng)網(wǎng)絡(luò),第四章通過(guò)定義新的廣義同余函數(shù),增加廣義同余神經(jīng)元的可調(diào)參數(shù),簡(jiǎn)化GCNN的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)GCNN做了改進(jìn)。論文中使用BPWA分別訓(xùn)練單隱層sigmoid神經(jīng)網(wǎng)絡(luò)和改進(jìn)型Go沁『’建立語(yǔ)音質(zhì)量感知模型,實(shí)驗(yàn)結(jié)果表明,基于BPWA-NN和BPWA-GC卜IN的語(yǔ)音質(zhì)量客觀評(píng)價(jià)系統(tǒng)具有良好的評(píng)價(jià)性能。語(yǔ)音中所蘊(yùn)涵的時(shí)間信息被認(rèn)為是聽(tīng)覺(jué)系統(tǒng)能夠分離和理解語(yǔ)音的重要信息。針對(duì)語(yǔ)音信號(hào)短時(shí)
5、分析中時(shí)間信息缺失的問(wèn)題,第五章中使用Lyon被動(dòng)長(zhǎng)波模型模擬語(yǔ)音信號(hào)在耳蝸中的非線性處理過(guò)程,將語(yǔ)音從一維空間轉(zhuǎn)換到二維空間的第l
6、頁(yè)西南交通大學(xué)博士研究生學(xué)位論文耳蝸圖表示,再通過(guò)自相關(guān)操作得到語(yǔ)音的相關(guān)圖。論文使用灰度共生矩陣來(lái)描述相關(guān)圖特征,并從中提取特征參量作為語(yǔ)音質(zhì)量評(píng)價(jià)的測(cè)度。實(shí)驗(yàn)結(jié)果表明,能量測(cè)度、熵測(cè)度、一致性測(cè)度的估計(jì)結(jié)果與主觀MOS值之間的相關(guān)度超過(guò)0.9,這種使用相關(guān)圖特征參量的音質(zhì)客觀評(píng)價(jià)是一種有效的評(píng)價(jià)方法。通信中的語(yǔ)音可懂度客觀評(píng)價(jià)是一項(xiàng)新的研究課題,具有重要的應(yīng)用價(jià)值。第六章利用RBFNN的良好
7、的分類特性和通過(guò)矢量量化得到的轉(zhuǎn)移概率矩陣實(shí)現(xiàn)了兩種可懂度客觀評(píng)價(jià)的方法:OⅡ“.RBFNN和OIM.11PD。實(shí)驗(yàn)結(jié)果表明,使用神經(jīng)網(wǎng)絡(luò)映射模塊的OIM.RBFNN和OD以.TPD評(píng)價(jià)具有可行性和有效性,當(dāng)使用MFCC特征參數(shù)時(shí),OIM.RBFNN和OIM.TPD的評(píng)價(jià)性能更穩(wěn)定。關(guān)鍵詞:語(yǔ)音質(zhì)量客觀評(píng)價(jià);神經(jīng)網(wǎng)絡(luò):美爾譜系數(shù);可懂度西南交通大學(xué)博士研究生學(xué)位論文第
8、II頁(yè)AbstractDHetowiderangeofvoiceservicesprovidedbymodemcommunicationnetworks,spe
9、echcommunicationhasbecomeoneofthemostprominentattributesofmodemlife.Therapiddevelopmentoftechnologiesandservicesledtoanincreasedneedforevaluacin2andoptimizingthetransmissioncharacteristicsofcommunicationsystem.Oneofthemostimportantindextoevalnatetheperformafteeofspe
10、echcommunicationsysternanddevicesiSspeechquality.Subjectiveevaluationisthemostreliablemethodofspeechqualityassessment,whichmeasurespeechqu