資源描述:
《引入集成學習的最大熵短語調(diào)序模型.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第28卷第1期中文信息學報V01.28,No.12014年1月JOURNALOFCHINESEINFORMAT10NPROCESSINGJan.,2014文章編號:1003~0077(2014)Ol一0087—07引入集成學習的最大熵短語調(diào)序模型何鐘豪,蘇勁松,史曉東,陳毅東,黃研洲(1.廈門大學智能科學與技術系,福建廈門361005;2.廈門大學軟件學院,福建廈門361005)摘要:基于最大熵的括號轉(zhuǎn)錄語法模型具有翻譯能力強、模型訓練簡單的優(yōu)點,成為近些年統(tǒng)計機器翻譯研究的熱點。然而,該模型存在短語調(diào)序?qū)嵗龢颖痉植疾黄胶獾娜秉c。針對該問題,該文提出了一種引入集成學習的短語
2、調(diào)序模型訓練方法。在大規(guī)模數(shù)據(jù)集上的實驗結果表明,我們的方法能有效改善調(diào)序模型的訓練效果,顯著提高翻譯系統(tǒng)性能。關鍵詞:最大熵;短語調(diào)序;不平衡分類;集成學習中圖分類號:TP39l文獻標識碼:AAnEnsembleLearningMethodforMaximumEntropyBasedPhraseReorderingModelHEZhonghao,SUJinsong,SHIXiaodong,CHENYidong,HUANGYanzhou(1.CognitiveScienceDepartment,XiamenUniversity,Xiamen,F(xiàn)ujian361005,Chi
3、na;2.SoftwareSchool,XiamenUniversity,Xiamen,F(xiàn)ujian361005,China)Abstract:TheMaximumEntropyBasedBTGmodelbecomesahottopicinstatisticalmachinetranslationinrecentyearsduetOitsstrongtranslationandeasytO—trainabilities.However,thedistributionofreorderingexamplesinthismodelisimbalanced.Tosolvethis
4、problem,weintroduceanensemblelearningmethodfortrainingphrasereor—deringmode1.Experimentalresultsshowthat,thereorderingmodelcanreachabettertrainingeffectviaourmethodandtheperformanceofthetranslationsystemisimprovedsignificantlyinalarge—scaledataset.Keywords:maximumentropy;phrasereordering;i
5、mbalancedclassifier;ensemblelearning現(xiàn)象具有很高的覆蓋率,適合于機器翻譯建模。因1引言此,括號轉(zhuǎn)錄語法模型近年來引起了研究者們的廣泛關注。而本文的研究工作就是在括號轉(zhuǎn)錄語法模機器翻譯中,在不同的語言或者同一語言內(nèi)部型的基礎上展開的。的不同方言之間,存在著非單調(diào)性對應,從而導致源括號轉(zhuǎn)錄文法當中包含有兩條短語規(guī)則用于調(diào)語言和目標語言之間的短語順序不同,這就是調(diào)序整短語間的順序,但是在解決調(diào)序問題時仍然存在問題l_】j。由于這種問題普遍存在,并且會對機器翻局限性:由于沒有包含短語的具體內(nèi)容信息,對于譯的效果產(chǎn)生重要影響,如果處理不當,會導致翻
6、譯兩個相鄰的短語塊組合在一起時是否需要調(diào)序,無錯誤,所以調(diào)序問題在機器翻譯中是一個非常重要法進行很好的判斷與處理]。對此,熊提出了基于的問題。最大熵的括號轉(zhuǎn)錄語法(MaximumEntropyBased針對這個問題,很多學者進行了深入的研究,建BTG,MEBTG)模型_4]。該模型在BTG翻譯模型立了許多模型。在這一系列模型當中,括號轉(zhuǎn)錄語的基礎上引入一個最大熵調(diào)序模型,通過將相鄰短法模型l_2J(BracketTransductionGrammar,BTG)語塊合并時是否需要調(diào)序看成是一個分類問題,構所使用的括號轉(zhuǎn)錄文法較為簡單,而且對雙語翻譯建了一個最大熵分類器,并融合
7、人多種特征,較好地收稿日期:2013—03—22定稿日期:2013-05—29基金項目:國家自然科學基金(61303082,61005052);國家科技支撐計劃(2012BAH14F03);高等學校博士學科點專項科研基金(2O120121120046)●88中文信息學報解決了BTG模型無法有效處理調(diào)序的問題。但出了MEBTG模型,該模型將短語是否需要調(diào)序看是,基于最大熵的括號轉(zhuǎn)錄語法模型的發(fā)展仍未成成是一個分類問題,采用最大熵分類器來對該問題熟,在翻譯過程中還存在一些不足,其中較為顯著的進行建模。該模型考慮了翻譯短