資源描述:
《基于因子分析的說話人分離技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、w-叫饋減;奪因若來大賽UniversityofScienceandTechnoloofChinagy碩±學位論文美-纖X^ceand/咬供占'論文題目基子因子分折的化巧人分壽技術(shù)研堯作者姓名^電路與余統(tǒng)學科專業(yè)李輝苗j教援導以巧姓名二〇…六■年六?月完成時間牛逸種《我術(shù)夫緣碩±學位論文卷基于因子分析的說話人分離技術(shù)研究作者姓名;李銳學科專業(yè):電路與系統(tǒng)導師姓名:李輝副教授—完成時間:二〇六年五月八日Univer
2、sityofScienceandTechnologyofChina一A’dissertationformastersdereeg?TheStudofSpeakerDiarizationyBasedonFactoranalsisy’Au化orsName:RuiLiSpecialit:CircuitsandSystemsySuervisorAssociateProf.HuiLip:化Finishedtime:Ma8,2016y中國科學技術(shù)大
3、學學位論文原創(chuàng)性聲明本人聲明所呈交的學位論文,是本人在導師指導下進行研究工作所取得的成果。除己特別加W標注和致謝的地方外,論文中不包含任何他人己經(jīng)發(fā)表或一撰寫過的研究成果。與我同工作的同志對本研究所做的貢獻均已在論文中作了明確的說明。>'備作者簽名:冰簽字日期:中國科學技術(shù)大學學位論文授權(quán)使用聲明一作為申請學位的條件之,學位論文著作權(quán)擁有者授權(quán)中國科學技術(shù)大學擁有學位論文的部分使用權(quán),目P;學校有權(quán)按有關(guān)規(guī)定向國家有關(guān)部口或機構(gòu)送交論文的復印件和電子版,,允許論文被查閱和借閱可W將學位論文編入《中
4、國學位論文全文數(shù)據(jù)庫》等有關(guān)數(shù)據(jù)庫進行檢索,可W采用影印、縮印或掃描等復制手段保存。本人提交的電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)、匯編學位論文容相一致。保密的學位論文在解密后也遵守此規(guī)定。5□保密(年)1^__^y2:作者簽名:導師簽名勺簽字日期:Ly心、。三簽字日期:.以7!摘要巧要高速發(fā)展的計算機水平和音頻處理技術(shù),使得人們對于從海量數(shù)據(jù)中獲?。崳娨坏礁信d趣的人聲,,越來越有需求。另方面如何對獲取到的各類音頻進行合一大挑戰(zhàn),,理有效的管理,也是目前存在的。在此背景下為了滿足上述需要一
5、過程說話人分離這:說話人分割和說話關(guān)鍵技術(shù)應(yīng)運而生,其主要涉及兩個人聚類。說話人分離系統(tǒng)幾乎無任何可供參考的先驗信息使用,容易受環(huán)境或者建模方法的影響,使得分割和聚類時說話人片段的類純度得不到保證,基。另外一一直的向上傳遞于距離準則的層次聚類方式旦出現(xiàn)聚類誤差,會。因此本文主要在說話人分割和聚類的建模方法W及類別提純上展開了探索和研究,主要工作和創(chuàng)新點如下:一第,說話人分離前端語音端點檢測VoiceActivi巧Detection,VAD)和(類別提純方面的研究。針對基線系統(tǒng)中存在的低能量語音難W召回
6、及噪聲難W去除的情形,引入了深度學習的方法,在分離前端進行改進。針對層次聚類時出現(xiàn)聚類誤差向上傳遞的情況,提出了基于貝葉斯信息準則(BayesianInformation知terionBIC)的短時類別提純方法差,,削弱由層次聚類帶來的誤向上傳遞的影響。實驗結(jié)果表明,基于深度學習的語音端點檢測,能有效的降,,且基于短時B低說話人分離時的虛警和漏警并且降低說話人分離錯誤率IC類別提純的方法,能更新部分聚類錯誤的說話人片段,提高后續(xù)說話人聚類的類純度。第I::,說話人轉(zhuǎn)折點檢測建模方法的研究。探索了基于深度
7、神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)的建模方法在說話人轉(zhuǎn)折點檢測中的應(yīng)用,利用其強大的模型表達能力,提高說話人分割的準確性,這。實驗結(jié)果表明種基于深度學習的轉(zhuǎn)折點檢測建模方法相比于傳統(tǒng)的BIC建模方法,無論是在轉(zhuǎn)折點檢測,iarizationErrorRate,D化)的準確率和召回率還是對整個系統(tǒng)的分離錯誤率(D來說一,都獲得了定的效果提升。第H,說話人聚類時的因子分析建模方法研究。傳統(tǒng)的W貝葉斯信息準則作為相似性度量的說話人分離技術(shù),在短時對話的分離任務(wù)中能取得較好的效果,但
8、是隨著對話時長的增加,BIC的單高斯模型不足W描化不同說話人數(shù)據(jù)的分布,且層次聚類時區(qū)分相同說話人和不同說話人的口限值難劃定。針對此問題,本文嘗試基于短時BIC和長時概率線性判別分析(Probabi