《中文信息學(xué)報(bào)》投稿模版 - ict nlp group

《中文信息學(xué)報(bào)》投稿模版 - ict nlp group

ID:9853167

大?。?23.28 KB

頁(yè)數(shù):12頁(yè)

時(shí)間:2018-05-12

《中文信息學(xué)報(bào)》投稿模版 - ict nlp group_第1頁(yè)
《中文信息學(xué)報(bào)》投稿模版 - ict nlp group_第2頁(yè)
《中文信息學(xué)報(bào)》投稿模版 - ict nlp group_第3頁(yè)
《中文信息學(xué)報(bào)》投稿模版 - ict nlp group_第4頁(yè)
《中文信息學(xué)報(bào)》投稿模版 - ict nlp group_第5頁(yè)
資源描述:

《《中文信息學(xué)報(bào)》投稿模版 - ict nlp group》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、文章編號(hào):基于雙語(yǔ)映射和標(biāo)注自適應(yīng)的分詞知識(shí)自動(dòng)推導(dǎo)方法作者一1,作者二2,作者三1(1.中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京100190)摘要:本文提出了一種從雙語(yǔ)語(yǔ)料中自動(dòng)學(xué)習(xí)分詞知識(shí)的方法。雙語(yǔ)映射實(shí)現(xiàn)有詞邊界的源語(yǔ)言和無(wú)詞邊界的目標(biāo)語(yǔ)言之間的映射。標(biāo)注自適應(yīng)把映射知識(shí)調(diào)整成符合已有的標(biāo)注準(zhǔn)則的語(yǔ)料。使用該方法的分詞器比其他的無(wú)監(jiān)督分詞器表現(xiàn)明顯好。使用標(biāo)注自適應(yīng)方法,可以在人工標(biāo)記語(yǔ)料的基礎(chǔ)上有效地提升分詞性能。該方法為需要分詞但分詞語(yǔ)料資源稀少的語(yǔ)言提供了有效、低成本的策略,并能容易地?cái)U(kuò)展到其他任務(wù),像命名實(shí)體識(shí)別等。關(guān)鍵詞:分詞;雙語(yǔ)映射;標(biāo)注適應(yīng)中圖分類(lèi)號(hào):

2、TP391文獻(xiàn)標(biāo)識(shí)碼:AAutomaticInductionofWordSegmentationKnowledgebyBilingualProjectionandAnnotationAdaptationName1,2,Name2,Name1(1.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofScience,Beijing100190,China;Abstract:Thispaperdescribesanovelmethodtoautomatica

3、llyinducewordsegmentationknowledgefrombilingualcorpus,itiscomposedoftwosuccessivephases,bilingualprojectionandannotationadaptation.First,theprojectionproceduremapsthewordboundaryknowledgefromthesourcelanguagewithworddelimiterstothetargetlanguagewithoutworddelimiters.Then,theannotationadaptationpr

4、ocedureadaptstheprojectedknowledgetoanexistingannotationguideline.Experimentsshowthat,thesegmentertrainedontheprojectedcorpussignificantlyoutperformspreviousunsupervisedworks,andbyannotationadaptation,theprojectedwordsegmentationknowledgecansignificantlyimprovewordsegmentationperformanceonthebasi

5、sofanexistinghuman-annotatedcorpus.Itprovidesaneffectiveandinexpensivestrategyforresource-scarcelanguagesthatneedwordsegmentation,andcanbeeasilyextendedtoothertaskssuchasnamedentityrecognition.Keywords:wordSegmentation;bilingualprojection;annotationadaptation1引言對(duì)于很多語(yǔ)言來(lái)說(shuō),分詞是自然語(yǔ)言處理中的基本任務(wù)。已經(jīng)有多個(gè)統(tǒng)計(jì)模型被

6、研究者提出以解決分詞問(wèn)題,比如隱馬爾科夫模型[1],最大熵模型[2],條件隨機(jī)場(chǎng)模型[3]。近期也有一些致力于提升分詞性能的新工作,比如使用全局訓(xùn)練方法或復(fù)雜特征[4-5],不同標(biāo)準(zhǔn)的整合[6],詞內(nèi)結(jié)構(gòu)研究[7],聯(lián)合或棧式建模[8-11]。包括CRFs在內(nèi)的判別式模型在特征表示方面具有很強(qiáng)的靈活性,性能卻受限于訓(xùn)練數(shù)據(jù)的規(guī)模。為了能夠使用未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,許多人嘗試使用半監(jiān)督或是無(wú)監(jiān)督的方法進(jìn)行分詞[12-15]。也有研究者嘗試把具有充足語(yǔ)料的語(yǔ)言和稀少語(yǔ)料的語(yǔ)言通過(guò)雙語(yǔ)語(yǔ)料進(jìn)行映射,來(lái)獲取分詞知識(shí)。與無(wú)監(jiān)督的方法相比,雙語(yǔ)映射方法通??梢垣@得更好的分詞表現(xiàn),且復(fù)雜度低。但是,近期

7、的雙語(yǔ)映射工作卻只關(guān)注句法信息或詞匯信息[16-20]。我們提出了一種從雙語(yǔ)語(yǔ)料中自動(dòng)獲取分詞知識(shí)的方法,這種方法包括兩個(gè)階段的工作:雙語(yǔ)映射和標(biāo)注自適應(yīng)。雙語(yǔ)映射階段把有分詞標(biāo)記的源語(yǔ)言和無(wú)分詞標(biāo)記的目標(biāo)語(yǔ)言進(jìn)行映射,得到目標(biāo)語(yǔ)言上的分詞語(yǔ)料。在標(biāo)注適應(yīng)階段,把上個(gè)階段得到的分詞語(yǔ)料當(dāng)作根據(jù)源語(yǔ)言分詞標(biāo)準(zhǔn)生成的失真的標(biāo)注語(yǔ)料,通過(guò)標(biāo)注自適應(yīng)算法調(diào)整成我們需要的標(biāo)注標(biāo)準(zhǔn)。在第一個(gè)階段中,我們使用的方法與前人使用的較簡(jiǎn)單的對(duì)齊方法不同

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。