資源描述:
《《中文信息學(xué)報(bào)》投稿模版 - ict nlp group》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、文章編號(hào):基于雙語(yǔ)映射和標(biāo)注自適應(yīng)的分詞知識(shí)自動(dòng)推導(dǎo)方法作者一1,作者二2,作者三1(1.中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京100190)摘要:本文提出了一種從雙語(yǔ)語(yǔ)料中自動(dòng)學(xué)習(xí)分詞知識(shí)的方法。雙語(yǔ)映射實(shí)現(xiàn)有詞邊界的源語(yǔ)言和無(wú)詞邊界的目標(biāo)語(yǔ)言之間的映射。標(biāo)注自適應(yīng)把映射知識(shí)調(diào)整成符合已有的標(biāo)注準(zhǔn)則的語(yǔ)料。使用該方法的分詞器比其他的無(wú)監(jiān)督分詞器表現(xiàn)明顯好。使用標(biāo)注自適應(yīng)方法,可以在人工標(biāo)記語(yǔ)料的基礎(chǔ)上有效地提升分詞性能。該方法為需要分詞但分詞語(yǔ)料資源稀少的語(yǔ)言提供了有效、低成本的策略,并能容易地?cái)U(kuò)展到其他任務(wù),像命名實(shí)體識(shí)別等。關(guān)鍵詞:分詞;雙語(yǔ)映射;標(biāo)注適應(yīng)中圖分類(lèi)號(hào):
2、TP391文獻(xiàn)標(biāo)識(shí)碼:AAutomaticInductionofWordSegmentationKnowledgebyBilingualProjectionandAnnotationAdaptationName1,2,Name2,Name1(1.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofScience,Beijing100190,China;Abstract:Thispaperdescribesanovelmethodtoautomatica
3、llyinducewordsegmentationknowledgefrombilingualcorpus,itiscomposedoftwosuccessivephases,bilingualprojectionandannotationadaptation.First,theprojectionproceduremapsthewordboundaryknowledgefromthesourcelanguagewithworddelimiterstothetargetlanguagewithoutworddelimiters.Then,theannotationadaptationpr
4、ocedureadaptstheprojectedknowledgetoanexistingannotationguideline.Experimentsshowthat,thesegmentertrainedontheprojectedcorpussignificantlyoutperformspreviousunsupervisedworks,andbyannotationadaptation,theprojectedwordsegmentationknowledgecansignificantlyimprovewordsegmentationperformanceonthebasi
5、sofanexistinghuman-annotatedcorpus.Itprovidesaneffectiveandinexpensivestrategyforresource-scarcelanguagesthatneedwordsegmentation,andcanbeeasilyextendedtoothertaskssuchasnamedentityrecognition.Keywords:wordSegmentation;bilingualprojection;annotationadaptation1引言對(duì)于很多語(yǔ)言來(lái)說(shuō),分詞是自然語(yǔ)言處理中的基本任務(wù)。已經(jīng)有多個(gè)統(tǒng)計(jì)模型被
6、研究者提出以解決分詞問(wèn)題,比如隱馬爾科夫模型[1],最大熵模型[2],條件隨機(jī)場(chǎng)模型[3]。近期也有一些致力于提升分詞性能的新工作,比如使用全局訓(xùn)練方法或復(fù)雜特征[4-5],不同標(biāo)準(zhǔn)的整合[6],詞內(nèi)結(jié)構(gòu)研究[7],聯(lián)合或棧式建模[8-11]。包括CRFs在內(nèi)的判別式模型在特征表示方面具有很強(qiáng)的靈活性,性能卻受限于訓(xùn)練數(shù)據(jù)的規(guī)模。為了能夠使用未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,許多人嘗試使用半監(jiān)督或是無(wú)監(jiān)督的方法進(jìn)行分詞[12-15]。也有研究者嘗試把具有充足語(yǔ)料的語(yǔ)言和稀少語(yǔ)料的語(yǔ)言通過(guò)雙語(yǔ)語(yǔ)料進(jìn)行映射,來(lái)獲取分詞知識(shí)。與無(wú)監(jiān)督的方法相比,雙語(yǔ)映射方法通??梢垣@得更好的分詞表現(xiàn),且復(fù)雜度低。但是,近期
7、的雙語(yǔ)映射工作卻只關(guān)注句法信息或詞匯信息[16-20]。我們提出了一種從雙語(yǔ)語(yǔ)料中自動(dòng)獲取分詞知識(shí)的方法,這種方法包括兩個(gè)階段的工作:雙語(yǔ)映射和標(biāo)注自適應(yīng)。雙語(yǔ)映射階段把有分詞標(biāo)記的源語(yǔ)言和無(wú)分詞標(biāo)記的目標(biāo)語(yǔ)言進(jìn)行映射,得到目標(biāo)語(yǔ)言上的分詞語(yǔ)料。在標(biāo)注適應(yīng)階段,把上個(gè)階段得到的分詞語(yǔ)料當(dāng)作根據(jù)源語(yǔ)言分詞標(biāo)準(zhǔn)生成的失真的標(biāo)注語(yǔ)料,通過(guò)標(biāo)注自適應(yīng)算法調(diào)整成我們需要的標(biāo)注標(biāo)準(zhǔn)。在第一個(gè)階段中,我們使用的方法與前人使用的較簡(jiǎn)單的對(duì)齊方法不同