資源描述:
《說話人分割與聚類技術(shù)與研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、圖書分類號:TP39U.D.C.:681.3工學(xué)碩士學(xué)位論文說話人分割與聚類技術(shù)研究碩士研究生:劉先導(dǎo)師:李海峰教授屮請學(xué)位:工學(xué)碩士學(xué)科、專業(yè):計算機(jī)科學(xué)與技術(shù)所在單位:計算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2006年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP39U.D.C.:681.3ADissertationfortheDegreeofM.Eng.RESEARCHONSPEAKERSEGMENTATIONANDCLUSTERINGTECHNIQUECandidate:Supervisor:AcademicDegreeAppliedfor:
2、Specialty:DateofDefence:Degree-Conferring-Institution:LiuXianProf.LiHaifengMasterofEngineeringComputerScienceandTechnologyJune,2006HarbinInstituteofTechnology摘要本文所研究的說話人分割與聚類技術(shù)是語音識別領(lǐng)域中一個較為新興的研究方向。該技術(shù)主要是針對含有多個說話人的對話型語咅,例如含有兩個人的電話錄咅、包含多個人的會議錄咅、電視新聞節(jié)目等。按照說話人的不同將對話型語咅進(jìn)行分割,而后將相同說話人的語咅片段聚類
3、在一起,實現(xiàn)說話人識別這樣一個任務(wù),即“whospokewhen"。它是語音技術(shù)走向?qū)嵱没囊粋€重要環(huán)節(jié),是說話人識別技術(shù)、說話人檢索技術(shù)以及多門其他語音技術(shù)發(fā)展所共同要求的一個新興研究重點(diǎn)。木文探討了說話人分割和說話人聚類的理論和實現(xiàn)技術(shù),實現(xiàn)了一個說話人分割與聚類系統(tǒng),并在此基礎(chǔ)上進(jìn)行了一些相關(guān)實驗。主要研究內(nèi)容包括:通過對目前說話人分割技術(shù)中使用得最廣泛的基于貝葉斯信息準(zhǔn)則(BayesianInformationCriterion)的分割方法進(jìn)行理論分析和實驗,發(fā)現(xiàn)原始的基于bic的說話人分割方法其計算量過大。針對這-情況木文提dr了一種基于預(yù)分割的說話人
4、分割方法,通過先預(yù)分割再對分割點(diǎn)驗證的方法,以少量的性能損失為代價,將說話人分割過程屮的判別次數(shù)(計算?B/C的次數(shù))由0(7?2)次減少到0(川)次。對于說話人聚類,rtr丁事先無法確知說話人數(shù)目,木文使用了與分類數(shù)無關(guān)的層次聚類法。在樣本間相似性度量方面,采用了高斯混合模型(GMM)間的距離來量化樣本Z間的相似性,并比較了兩種不同的GMM模型間的距離在聚類效果上的差杲,以及GMM混合數(shù)對聚類性能的影響。并再次利用BIC準(zhǔn)則推導(dǎo)出一個聚類停止準(zhǔn)則。此外,為了更好地從咅頻中得到純語咅信號,在特征提取階段使用了一種利用動態(tài)能量閾值以及平滑處理來去除靜咅幀的方法。關(guān)
5、鍵詞說話人分割;說話人聚類;話者識別;說話人檢索AbstractSpeakersegmentationandclusteringisanewresearchdirectionofspeechprocessingtechnique.Itfocusesonconversationalspeeches,suchastelephoneconversations,meetingrecordsandbroadcastnewsaudios.Speakersegmentationandclusteringisachievedbycuttingtheconversationals
6、peechesintohomospeakersegments,andthen,classifyingthosesegmentsintodifferentclustersaccordingtothespeakers.Itisknownasakeysteptomakethespeechtechniquemorepractical.Inthispaper,thetheoriesandimplementationtechniquesofspeakersegmentationandclusteringarediscussed.Andsomeexperimentsarec
7、arriedoutbaseonanimplementedsystem.Themainworksareasfollowings.Firstly,basedonthetheoreticalanalysisandexperimentstoBIC(BayesianInformationCriterion),whichisamostpopularmethodofspeakersegmentation,thehugecomputationcostisrealized.Thenanimprovedmethodisproposed?Insteadofsegmentingther
8、ecordsdirect