中文分詞交集型歧義處理的研究

中文分詞交集型歧義處理的研究

ID:34698766

大小:4.69 MB

頁數(shù):54頁

時間:2019-03-09

中文分詞交集型歧義處理的研究_第1頁
中文分詞交集型歧義處理的研究_第2頁
中文分詞交集型歧義處理的研究_第3頁
中文分詞交集型歧義處理的研究_第4頁
中文分詞交集型歧義處理的研究_第5頁
資源描述:

《中文分詞交集型歧義處理的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、摘要詞是最小的能獨立表示語義的語言單位,因而是處理各種自然語言文本的基礎(chǔ)。漢語書寫顯得很特別,因為它沒有明確的標(biāo)志將詞與詞分開,而是一段連續(xù)的漢字串。如何把漢字串正確地切分成詞串,即對詞邊界的自動識別,是中文信息處理中迫切需要解決的問題。對中文分詞的研究很有意義,本文研究的是中文分詞中詞典機制和交集型歧義的發(fā)現(xiàn)和消除。主要研究工作包括以下幾個方面:(1)系統(tǒng)地闡述了中文分詞研究背景、意義以及發(fā)展現(xiàn)狀,并對一些有特色的分詞系統(tǒng)進(jìn)行簡單的介紹。(2)對中文分詞中常用的算法進(jìn)行詳細(xì)的介紹并舉實例闡述其算法思想及運行過程。對在中文分詞過程中所遇到的困難進(jìn)行了

2、概括并給出了評價中文分詞的標(biāo)準(zhǔn)。.(3)分詞速度和精度是衡量分詞系統(tǒng)的核心指標(biāo)。通過對幾種常見的詞典結(jié)構(gòu)的研究,發(fā)現(xiàn)各自詞典結(jié)構(gòu)的優(yōu)缺點,在此基礎(chǔ)上處于提高分詞速度、提高建構(gòu)詞典的空間效率、查找過程的時間效率以及漢語詞組的統(tǒng)計規(guī)律的考慮,本文選擇雙字Hash索引的詞典機制,將前兩字逐個建立Hash索引,并將剩余字串有序排列組成詞典的正文。(4)本文主要對交集型歧義進(jìn)行處理。首先介紹歧義產(chǎn)生的根源以及歧義的分類。詳細(xì)介紹了交集型歧義的發(fā)現(xiàn)算法和消解算法。本文發(fā)現(xiàn)了一種能識別交集型歧義的方法,即在二元切分詞圖中,如果位于對稱軸上的原子與它相連的右邊和上面

3、位置上同時不為空,表明這里出現(xiàn)了交集型歧義。本文采用基于統(tǒng)計的方法來對交集型歧義進(jìn)行消解,先詳細(xì)的介紹了幾種基于統(tǒng)計的常見方法,并分析它們的優(yōu)缺點,最后采用雙字耦合度和t一測試差的線性疊加,再對各個歧義位置進(jìn)行計算CDT(CoupleandDifferenceofT-test)并對是否進(jìn)行切分做出選擇。實驗結(jié)果表明,基于詞典和統(tǒng)計相結(jié)合的分詞算法對應(yīng)于傳統(tǒng)的分詞算法在分詞速度和分詞精度上都有顯著的提高。然而該算法不能處理組合型歧義和未登錄詞,有待進(jìn)一步研究。關(guān)鍵詞:中文分詞,Hash索引,分詞算法,CDT中文分詞歧義處理研究AbstractWordi

4、sthesmallestlanguageunittoshowsemanticindependently,whichisthefoundationofdealingwithvariouskindsofnaturallanguagetexts.RisveryspecialtobeChinesewriting,asithasnotanyclearsigntoseparatethewordfromword,butacontinuouscharacterstring.Howtocutthecharacterstringintowordstring,whichm

5、eanstheautomaticidentificationofwordboundary,isakeyproblemthatChineseinformationprocessingneedtosolveinurgent.111eresearchforChinesewordsegmentationismeaningful,thispaperstudiesthedictionarynlechanismandhowtodiscoverandeliminatetheintersectionambiguityinChinesewordsegmentation,

6、nlemainresearchworkincludesthefollowingaspects:(1)Elaboratetheresearchbackground,significanceanddevelopmentstatusforChinesewordsegmentation,giveabriefinlroducetosomedistinctivesegmentationsystem.(2)G-ivedescribeindetailstothosealgorithmwhichareusedinChinesewordsegmentation,give

7、someinstancestodescribethethoughtandoperation.SummarizeallkindsofdifficultiesencounteredintheprocessandgivetheevaluationstandardforChinesewordsegmentation.(3)Thecoreindicatorofwordsegmentationisspeedandaccuracy.Throughtheresearchofseveralcommondictionariesstructure,fredtheadvan

8、tagesanddisadvantagesofeachdictionarystructure,conside

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。