資源描述:
《英日機器翻譯系統(tǒng)中的英語兼類詞消歧策略》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應用文檔-天天文庫。
1、英日機器翻譯系統(tǒng)中的英語兼類詞消歧策略原文地址:英日機器翻譯系統(tǒng)中的英語兼類詞消歧策略作者:1926267847這個圖片是姑娘頭像還是老人頭像?英日機器翻譯系統(tǒng)E-to-J原語分析中的兼類詞消歧策略馮志偉語言文字應用研究所計算語言學研究室100010北京朝內(nèi)南小街51號e-mail:zwfengde@public.bta.net.cn摘要本文介紹了商品化英日機器翻譯系統(tǒng)E-to-J中兼類詞的消歧策略。作者根據(jù)機器翻譯的實踐,把英語中同形兼類詞歸納為29種類型,提出了基于上下文環(huán)境的處理這些兼類詞類型的消歧方法。關(guān)鍵詞:機器翻譯,原語分析,兼類詞,消歧我
2、最近與日本JEC公司的研究人員合作,開發(fā)了一個英日機器翻譯系統(tǒng)E-to-J,已經(jīng)于1998年11月在日本市場推出,實現(xiàn)了商品化。這是我們研制的第一個從外語到外語的商品化機器翻譯系統(tǒng),主要是為了滿足國外市場的需要。商品化的機器翻譯系統(tǒng)的研制離不開機器翻譯的理論。在開發(fā)E-to-J機器翻譯系統(tǒng)之前,我們開發(fā)部的研究人員對于機器翻譯的策略在理論上作了認真的探討,使得我們的商品化機器翻譯系統(tǒng)的研制在理論上有一個堅實的基礎(chǔ)。這個機器翻譯系統(tǒng)采用基于復雜特征的短語結(jié)構(gòu)語法來分析英語,首先造出短語結(jié)構(gòu)樹(phrasestructuretree,簡稱P-樹),然后將短
3、語結(jié)構(gòu)樹轉(zhuǎn)化為從屬樹(dependencytree,簡稱D-樹),采用了P-樹到D-樹的轉(zhuǎn)化策略,最后根據(jù)從屬關(guān)系語法(即配價語法)來進行日語生成。這種基于復雜特征的短語結(jié)構(gòu)語法和從屬關(guān)系語法相互結(jié)合的策略,適合于英日機器翻譯的特點,取得了比較好的效果。在英語分析中,盡管我們采用了富田算法(TomitaAlgorithm)實現(xiàn)子樹共享以及局部歧義緊縮等技術(shù),提高了分析的效率,但是,由于英語中存在大量兼類詞,如果兼類詞的詞類判斷有誤,分析中往往會走彎路,嚴重地影響到分析的速度。兼類詞的判定實際上是在詞匯中進行詞類的消歧,兼類詞的消歧,是英語自動分析中必須
4、認真對待的問題。在機器翻譯中,所謂"兼類詞"是指廣義的兼類詞。詞形相同,詞義相同,只是詞類不同的詞算兼類詞,如plan,可以用作動詞,也可以用作名詞,但是,其詞義都是"計劃",算為兼類詞;而且,詞形相同,詞義和詞類不同的詞,也算為兼類詞,如can,作名詞時其詞義為"罐頭",作助動詞時其詞義為"能夠",我們也把它算為兼類詞。這樣,本文中所說的兼類詞是意義非常廣泛的兼類詞,實際上也就是"同形兼類詞"。在機器翻譯系統(tǒng)中,兼類詞的消歧,實際上就是同形詞的辨別。我們對兼類詞做這樣廣泛的規(guī)定,完全是從機器翻譯形式分析的角度出發(fā)來考慮的。因為機器只認形式,只要是形式
5、上相同的詞,機器都有必要將它們區(qū)別開來。在系統(tǒng)開發(fā)的初期,兼類詞的消歧是貫穿在整個翻譯過程中的,哪里遇到兼類詞就在哪里消歧,這是一種"見子打子"的策略。這種策略的好處是消歧可以收到立竿見影的效果,但是,缺乏系統(tǒng)性,往往會忽略許多重要的兼類現(xiàn)象,由于商品化系統(tǒng)必須面對各種復雜的真實的語言材料,如果一些重要的兼類現(xiàn)象到分析結(jié)束時才處理,系統(tǒng)在分析的初始階段必須付出大量的無謂的開銷,系統(tǒng)的空間復雜度和時間復雜度都很高。商品化的機器翻譯系統(tǒng)必須講求效率,如果系統(tǒng)的無謂的開銷過大,翻譯速度必定不會很高,難以滿足市場的需求,在激烈的市場競爭中有可能失利。經(jīng)過反復的
6、考慮和試驗,我們決定把兼類詞判別作為系統(tǒng)的一個單獨模塊,放在形態(tài)分析結(jié)束而句法語義分析剛開始時來進行,盡量作到在句法語義分析開始之前就對大多數(shù)的兼類詞進行消歧,從而為后面的分析工作奠定堅實的基礎(chǔ)。實踐證明,這樣的做法大大地降低了系統(tǒng)的時間復雜度和空間復雜度,減少了系統(tǒng)的無謂開銷,提高了翻譯的速度,滿足了日本市場的需要。下面,我們把E-to-J英日機器翻譯系統(tǒng)中在兼類詞消歧方面的研究作一個簡單的介紹。1.英語中詞的兼類現(xiàn)象:根據(jù)大量的語料分析和翻譯試驗,我們把英語中的兼類現(xiàn)象初步總結(jié)為如下29個方面:1.1V?N:V表示動詞,N表示名詞,"V?N"表示動
7、詞-名詞兼類。下面的表示方法與此相同。例如,plan是動詞-名詞的兼類詞。在Wheredoyouplantospendyourvacation?中,plan是動詞(我們在句子后面標以V),而在下面的句子中,plan是名詞(我們在句子后面標以N):Haveyoumadeanyplansfortomorrownight?(N)另外,在"NandplanandN"(N表示名詞)這樣的格式中,由于與plan并列的前后詞都是名詞,故plan也是名詞。動詞-名詞兼類的例子還有(當為動詞時,句子后面標以V;當為名詞時,句子后面標以N):work:Mydaughter
8、worksinanoffice.(V)Itisagasworks.(N)Ireadthewor