資源描述:
《機(jī)器翻譯中基于語法、語義知識庫的漢語詞義消歧策略》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、?機(jī)器翻譯中基于語法、語義知識庫的漢語詞義消歧策略王惠北京大學(xué)計(jì)算語言學(xué)研究所,北京,100871摘要:詞義消歧研究在自然語言處理的許多應(yīng)用領(lǐng)域中具有重要的理論和實(shí)踐意義,在機(jī)器翻譯中更是如此,它直接關(guān)系到譯文質(zhì)量的提高。但目前已有的詞義消歧系統(tǒng)基本上都面臨著消歧知識獲取的瓶頸問題。本文認(rèn)為,要真正有效地提高詞義知識庫的質(zhì)量,需要在詞類劃分基礎(chǔ)上,增加詞義的語法功能分析和語義搭配限制,綜合利用現(xiàn)有的語法、語義資源,提取多義詞的每個(gè)意義在不同層級上的各種分布特征。以此為基礎(chǔ),本文提出了一種漢英機(jī)器翻譯系統(tǒng)中基于語法、語義知識庫的漢語詞義消歧分析算法。初步的實(shí)驗(yàn)結(jié)果表明,該方法可以
2、高質(zhì)量地進(jìn)行漢語名詞、動(dòng)詞、形容詞的詞義消歧。關(guān)鍵詞:詞義消歧(WSD)漢英機(jī)器翻譯語法詞典語義詞典AStudyofChineseWordSenseDisambiguationinMTBasedonGrammatical&SemanticKnowledge-basesWang,Hui(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China)AbstractWordsensedisambiguation(WSD)playsanimportantroleinMachineTranslation
3、andmanyotherareasofnaturallanguageprocessing.TheresearchonWSDhasgreattheoreticalandpracticalsignificance.ThemainworkinthispaperistostudywhatkindofknowledgeisusefulforWSDinsystem,andestablishamulti-levelWSDmodelbasedonsyntagmaticfeaturesandsemanticinformation,whichcanbeusedtodisambiguatewords
4、enseinMandarinChineseeffectively.ThemodelmakesfulluseoftheGrammaticalKnowledge-baseofContemporaryChineseasoneofitsmainmachine-readabledictionary(MRD),whichcanproviderichgrammaticalinformationfordisambiguationsuchasChineselexicon,parts-of-speech(POS)andsyntaxfunction.Anotherresourceofthemodel
5、istheSemanticDictionaryofContemporaryChinese,whichprovidesathesaurusandsemanticcollocationinformationof68,000Chinesewords.TheresultsofthisstudyindicatethatthetwoMRDresourcesareeffectiveforwordsensedisambiguationinMTandarelikelytobeimportantforgeneralChineseNLP.Keywords:WordSenseDisambiguatio
6、n,Chinese-EnglishMachineTranslation,GrammaticalKnowledge,SemanticDictionary?本項(xiàng)研究得到國家973項(xiàng)目“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”(項(xiàng)目號:G1998030507-4)的支持。11.引言由于自然語言中一詞多義現(xiàn)象普遍存在,在機(jī)器翻譯中,要讓計(jì)算機(jī)進(jìn)行準(zhǔn)確的譯文選擇(translationchoice),一個(gè)重要的前提條件就是能夠在某個(gè)特定上下文中,自動(dòng)排除歧義,確定多義詞的詞義。因此,詞義消歧(Wordsensedisambiguation,WSD)從50年代初期開[1,2]始機(jī)器翻譯研究起就一直
7、備受計(jì)算語言學(xué)家的關(guān)注。早期人們所使用的詞義消歧知識一般是憑人手工編制的規(guī)則。由于手工編寫規(guī)則費(fèi)時(shí)費(fèi)力,存在嚴(yán)重的知識獲取的“瓶頸”問題。20世紀(jì)80年代以后,語言學(xué)家提供的各類詞典成為人們獲取詞義消歧知識的一個(gè)重要知識源。Lesk、Luk根據(jù)《OxfordAdvancedLearner’s[3,4]Dictionary》中的釋義文本來判斷多義詞在上下文中的詞義。Dagan和Gale利用雙語對照[5,6]詞典來幫助多義詞消歧。Voorhees、Resnik從不同角度利用WordNet中的上下