語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別 少數(shù)民族語(yǔ) 語(yǔ)音檢測(cè)

語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別 少數(shù)民族語(yǔ) 語(yǔ)音檢測(cè)

ID:7818752

大小:52.50 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2018-02-27

語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別 少數(shù)民族語(yǔ) 語(yǔ)音檢測(cè)_第1頁(yè)
語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別 少數(shù)民族語(yǔ) 語(yǔ)音檢測(cè)_第2頁(yè)
語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別 少數(shù)民族語(yǔ) 語(yǔ)音檢測(cè)_第3頁(yè)
語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別 少數(shù)民族語(yǔ) 語(yǔ)音檢測(cè)_第4頁(yè)
語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別 少數(shù)民族語(yǔ) 語(yǔ)音檢測(cè)_第5頁(yè)
資源描述:

《語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別 少數(shù)民族語(yǔ) 語(yǔ)音檢測(cè)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、語(yǔ)種識(shí)別論文:語(yǔ)種識(shí)別少數(shù)民族語(yǔ)語(yǔ)音檢測(cè)【中文摘要】據(jù)有關(guān)資料統(tǒng)計(jì),當(dāng)今世界上共有5651種語(yǔ)言。語(yǔ)種之間的信息互通越來(lái)越重要,如何讓計(jì)算機(jī)識(shí)別出不同的語(yǔ)種已經(jīng)成為人們的迫切需求。語(yǔ)種識(shí)別(LanguageIdentification,LID),是計(jì)算機(jī)通過(guò)分析處理一段語(yǔ)音片斷以判別其屬于何種語(yǔ)言的過(guò)程,本質(zhì)上也是屬于語(yǔ)音識(shí)別的一個(gè)分支。它已經(jīng)廣泛的應(yīng)用于信息檢索和軍事安全等領(lǐng)域。當(dāng)前語(yǔ)種識(shí)別系統(tǒng)主要有三個(gè)方面:音位結(jié)構(gòu)模型系統(tǒng)、聲學(xué)模型系統(tǒng)以及聯(lián)合系統(tǒng)。其中聲學(xué)模型系統(tǒng)由于不需要人工標(biāo)注語(yǔ)料,而且系統(tǒng)擴(kuò)

2、展性好,所以得到了廣泛的應(yīng)用。本文研究與文本無(wú)關(guān)的少數(shù)民族語(yǔ)種識(shí)別方法,采用高斯混合模型—通用背景模型(GaussianMixtureModel-UniversalBackgroundMode,GMM-UBM)建立語(yǔ)種識(shí)別系統(tǒng),探索提高識(shí)別率的途徑。論文的主要工作有:(1)少數(shù)民族電話語(yǔ)音數(shù)據(jù)庫(kù)的錄制,該數(shù)據(jù)庫(kù)包含了9個(gè)少數(shù)民族語(yǔ)和漢語(yǔ)普通話共10個(gè)語(yǔ)種,每個(gè)語(yǔ)種有50個(gè)發(fā)音人,男女比例約為1:1,并進(jìn)行語(yǔ)音數(shù)據(jù)的整理。(2)構(gòu)建一個(gè)基于GMM-UBM的少數(shù)民族語(yǔ)種識(shí)別系統(tǒng),設(shè)計(jì)并實(shí)現(xiàn)語(yǔ)種識(shí)別實(shí)驗(yàn):用雙門

3、限的方法進(jìn)行語(yǔ)音檢測(cè);提取MFCC和SDC特征參數(shù);訓(xùn)練UBM模型和GMM模型。(3)用6個(gè)民族的不同時(shí)長(zhǎng)的測(cè)試語(yǔ)音和漢語(yǔ)借詞進(jìn)行測(cè)試。按四種測(cè)試語(yǔ)料分別給出各個(gè)語(yǔ)種的識(shí)別率,對(duì)比兩種特征的識(shí)別率,從語(yǔ)音學(xué)的角度分析各語(yǔ)種之間誤識(shí)別的原因,還分析了漢語(yǔ)借詞對(duì)少數(shù)民族語(yǔ)種識(shí)別率的影響。實(shí)驗(yàn)結(jié)果表明,論文設(shè)計(jì)的基于GMM-UBM的語(yǔ)種識(shí)別系統(tǒng)具有較好的擴(kuò)展性;雙門限的方法進(jìn)行語(yǔ)音檢測(cè),能有效地去除噪音,提取到有用的語(yǔ)音幀;基于SDC特征參數(shù)的少數(shù)民族語(yǔ)種識(shí)別率明顯高于基于MFCC特征參數(shù)的識(shí)別率;6個(gè)語(yǔ)種之間

4、存在有規(guī)律的誤識(shí)別;對(duì)漢語(yǔ)借詞的識(shí)別,實(shí)驗(yàn)結(jié)果表明漢語(yǔ)借詞會(huì)使少數(shù)民族語(yǔ)種識(shí)別率明顯下降?!居⑽恼緼ccordingtostatistics,thereare5651languagesintheworld.Withthecommunicationbetweenthelanguagesbecomesmoreandmoreimportant,howtomakecomputeridentifythedifferentlanguageshavebecomethepeople’surgentneeds.Lang

5、uageidentificationistheprocessofdeterminingthelanguageofaspokenutterance.Inessence,itisanaspectofspeechrecognition.Languageidentificationhasbeenwidelyusedinmulti-linguisticinformationservicesandsecurityfields.Therearethreetypesoflanguagerecognitionsystem:

6、phonotacticapproachsystemincurrent,acousticapproachsystemandtheircombinedsystems.Acousticapproachsystemdoesnotrequiremanualtaggingcorpus,andithasagoodportable,soithasbeenwidelyused.Thispaperisfocusonthetest-independentlanguageidentificationmethod,usingGMM

7、-UBMtobuildthelanguageidentificationsystem,andexploresmethodstoimprovetherecognitionrate.Themainworksareasfollows:(1)Wedesignaminority-orientedlanguageidentificationoftelephonespeechcorpus,whichconsistsofspontaneousutterancesin9minority-orientedlanguagesa

8、ndMandarin.Theutterancesareproducedby25maleand25female,ineachlanguageoverrealtelephonelines.Thenwedosomepreliminarycollatingbeforeweusethem.(2)AlanguageidentificationsystemofminoritylanguagebasedonGMM-UBMmodelisbuil

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。