中文信息學報

ID：37697221

大小：292.90 KB

頁數(shù)：7頁

時間：2019-05-29

資源描述：

《中文信息學報》由會員上傳分享，免費在線閱讀，更多相關內(nèi)容在行業(yè)資料-天天文庫。

1、中文信息學報第20卷第4期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.20No.4文章編號:1003-0077(2006)04-0068-073基于trigram語體特征分類的語言模型自適應方法梁奇,鄭方,徐明星,吳文虎(清華大學計算機科學與技術系智能技術與系統(tǒng)國家重點實驗室語音技術中心,北京100084)摘要:本文從書面語和口語存在的差異出發(fā),提出了語言模型的語體自適應方法。自適應采用了幾種不同的計數(shù)意義上的插值算法?？紤]Katz平滑的插值算法根據(jù)trigram單元的可信度來分配權值?；趖rigram語體特征分類的自適應算法根據(jù)trigram單元的語

2、體特征傾向動態(tài)分配權值,并選取了幾種不同的權值生成函數(shù)。對口語語料做音轉字的實驗證明,使用這幾種自適應算法可以讓基準模型的性能有不同程度的提高,其中綜合考慮單元可信度和特征傾向的算法效果最好,相對于本文的兩個基準的漢字錯誤率下降率分別達到了5012%和2317%。關鍵詞:計算機應用;中文信息處理;統(tǒng)計語言模型;trigram;自適應;語體;插值算法中圖分類號:TP391文獻標識碼:ALanguageModelAdaptationBasedontheClassificationofaTrigram’sLanguageStyleFeatureLIANGQi,ZHENGFang,XUMing2xi

3、ng,WUWen2hu(TheStateKeylaboratoryofIntelligenceTechnologyandSystem,DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)Abstract:Inthispaper,alanguagestylebasedadaptivemethodforlanguagemodelisproposedbasedonthediffer2encesbetweenoralandwrittenlanguages.Severalinterpolatio

4、nmethodsbasedontrigramcountsareusedfortheadap2tation.AninterpolationmethodconsideringKatzsmoothingcomputesweightsaccordingtotheconfidencescoreofatrigram.Anadaptationmethodbasedontheclassificationofatrigram’sstylefeaturecomputesweightsdynamicallyaccordingtothetrigram’slanguagestyletendencywithsevera

5、lweightgenerationfunctionsproposed.ExperimentsonspokenChinesecorporashowthatthesemethodscouldreducetheChinesecharactererrorrateforpinyin2to2characterconversiontosomeextent,moreorless,andtheoneconsideringbothatrigram’sconfidenceandstyletendencya2chievedthebestperformancewithcharactererrorratereducti

6、onof5012%and2317%,respectively,comparedwithtwobaselinesinthispaper.Keywords:computerapplication;Chineseinformationprocessing;statisticlanguagemodel;trigram;adaptation;lan2guagestyle;interpolationmethod1引言通常用于訓練統(tǒng)計語言模型的語料絕大多數(shù)都是書面語的,因此訓練出來的語言模型實際上是書面語語體的語言模型。在現(xiàn)實生活中,如在當面交談、打電話、網(wǎng)上聊天、發(fā)手機短信等時,人們大都使用口語?？谡Z和

7、書面語之間是存在一些差異的,在這些應用場合輸入漢字所3收稿日期:2005-06-25定稿日期:2006-06-02作者簡介:梁奇(1981—),男,碩士研究生,主要研究方向為統(tǒng)計語言模型.68[1][2]使用的中文整句輸入法或隨意發(fā)音的語音識別器如果仍然使用書面語訓練出來的語言[3]模型,應用條件和訓練條件是不一致的,必將造成系統(tǒng)總體性能的下降。從最大似然估計方法的原理可知,如果有充分的口語語料,那么訓練出來

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

中文信息學報

中文信息學報

相關文章

相關標簽