資源描述:
《中文信息學報》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、中文信息學報第20卷第4期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.20No.4文章編號:1003-0077(2006)04-0068-073基于trigram語體特征分類的語言模型自適應方法梁奇,鄭方,徐明星,吳文虎(清華大學計算機科學與技術系智能技術與系統(tǒng)國家重點實驗室語音技術中心,北京100084)摘要:本文從書面語和口語存在的差異出發(fā),提出了語言模型的語體自適應方法。自適應采用了幾種不同的計數(shù)意義上的插值算法??紤]Katz平滑的插值算法根據(jù)trigram單元的可信度來分配權值?;趖rigram語體特征分類的自適應算法根據(jù)trigram單元的語
2、體特征傾向動態(tài)分配權值,并選取了幾種不同的權值生成函數(shù)。對口語語料做音轉字的實驗證明,使用這幾種自適應算法可以讓基準模型的性能有不同程度的提高,其中綜合考慮單元可信度和特征傾向的算法效果最好,相對于本文的兩個基準的漢字錯誤率下降率分別達到了5012%和2317%。關鍵詞:計算機應用;中文信息處理;統(tǒng)計語言模型;trigram;自適應;語體;插值算法中圖分類號:TP391文獻標識碼:ALanguageModelAdaptationBasedontheClassificationofaTrigram’sLanguageStyleFeatureLIANGQi,ZHENGFang,XUMing2xi
3、ng,WUWen2hu(TheStateKeylaboratoryofIntelligenceTechnologyandSystem,DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)Abstract:Inthispaper,alanguagestylebasedadaptivemethodforlanguagemodelisproposedbasedonthediffer2encesbetweenoralandwrittenlanguages.Severalinterpolatio
4、nmethodsbasedontrigramcountsareusedfortheadap2tation.AninterpolationmethodconsideringKatzsmoothingcomputesweightsaccordingtotheconfidencescoreofatrigram.Anadaptationmethodbasedontheclassificationofatrigram’sstylefeaturecomputesweightsdynamicallyaccordingtothetrigram’slanguagestyletendencywithsevera
5、lweightgenerationfunctionsproposed.ExperimentsonspokenChinesecorporashowthatthesemethodscouldreducetheChinesecharactererrorrateforpinyin2to2characterconversiontosomeextent,moreorless,andtheoneconsideringbothatrigram’sconfidenceandstyletendencya2chievedthebestperformancewithcharactererrorratereducti
6、onof5012%and2317%,respectively,comparedwithtwobaselinesinthispaper.Keywords:computerapplication;Chineseinformationprocessing;statisticlanguagemodel;trigram;adaptation;lan2guagestyle;interpolationmethod1引言通常用于訓練統(tǒng)計語言模型的語料絕大多數(shù)都是書面語的,因此訓練出來的語言模型實際上是書面語語體的語言模型。在現(xiàn)實生活中,如在當面交談、打電話、網(wǎng)上聊天、發(fā)手機短信等時,人們大都使用口語??谡Z和
7、書面語之間是存在一些差異的,在這些應用場合輸入漢字所3收稿日期:2005-06-25定稿日期:2006-06-02作者簡介:梁奇(1981—),男,碩士研究生,主要研究方向為統(tǒng)計語言模型.68[1][2]使用的中文整句輸入法或隨意發(fā)音的語音識別器如果仍然使用書面語訓練出來的語言[3]模型,應用條件和訓練條件是不一致的,必將造成系統(tǒng)總體性能的下降。從最大似然估計方法的原理可知,如果有充分的口語語料,那么訓練出來