資源描述:
《中文分詞交集型歧義處理的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、摘要詞是最小的能獨立表示語義的語言單位,因而是處理各種自然語言文本的基礎(chǔ)。漢語書寫顯得很特別,因為它沒有明確的標(biāo)志將詞與詞分開,而是一段連續(xù)的漢字串。如何把漢字串正確地切分成詞串,即對詞邊界的自動識別,是中文信息處理中迫切需要解決的問題。對中文分詞的研究很有意義,本文研究的是中文分詞中詞典機制和交集型歧義的發(fā)現(xiàn)和消除。主要研究工作包括以下幾個方面:(1)系統(tǒng)地闡述了中文分詞研究背景、意義以及發(fā)展現(xiàn)狀,并對一些有特色的分詞系統(tǒng)進(jìn)行簡單的介紹。(2)對中文分詞中常用的算法進(jìn)行詳細(xì)的介紹并舉實例闡述其算法思想及運行過程。對在中文分詞過程中所遇到的困難進(jìn)行了
2、概括并給出了評價中文分詞的標(biāo)準(zhǔn)。.(3)分詞速度和精度是衡量分詞系統(tǒng)的核心指標(biāo)。通過對幾種常見的詞典結(jié)構(gòu)的研究,發(fā)現(xiàn)各自詞典結(jié)構(gòu)的優(yōu)缺點,在此基礎(chǔ)上處于提高分詞速度、提高建構(gòu)詞典的空間效率、查找過程的時間效率以及漢語詞組的統(tǒng)計規(guī)律的考慮,本文選擇雙字Hash索引的詞典機制,將前兩字逐個建立Hash索引,并將剩余字串有序排列組成詞典的正文。(4)本文主要對交集型歧義進(jìn)行處理。首先介紹歧義產(chǎn)生的根源以及歧義的分類。詳細(xì)介紹了交集型歧義的發(fā)現(xiàn)算法和消解算法。本文發(fā)現(xiàn)了一種能識別交集型歧義的方法,即在二元切分詞圖中,如果位于對稱軸上的原子與它相連的右邊和上面
3、位置上同時不為空,表明這里出現(xiàn)了交集型歧義。本文采用基于統(tǒng)計的方法來對交集型歧義進(jìn)行消解,先詳細(xì)的介紹了幾種基于統(tǒng)計的常見方法,并分析它們的優(yōu)缺點,最后采用雙字耦合度和t一測試差的線性疊加,再對各個歧義位置進(jìn)行計算CDT(CoupleandDifferenceofT-test)并對是否進(jìn)行切分做出選擇。實驗結(jié)果表明,基于詞典和統(tǒng)計相結(jié)合的分詞算法對應(yīng)于傳統(tǒng)的分詞算法在分詞速度和分詞精度上都有顯著的提高。然而該算法不能處理組合型歧義和未登錄詞,有待進(jìn)一步研究。關(guān)鍵詞:中文分詞,Hash索引,分詞算法,CDT中文分詞歧義處理研究AbstractWordi
4、sthesmallestlanguageunittoshowsemanticindependently,whichisthefoundationofdealingwithvariouskindsofnaturallanguagetexts.RisveryspecialtobeChinesewriting,asithasnotanyclearsigntoseparatethewordfromword,butacontinuouscharacterstring.Howtocutthecharacterstringintowordstring,whichm
5、eanstheautomaticidentificationofwordboundary,isakeyproblemthatChineseinformationprocessingneedtosolveinurgent.111eresearchforChinesewordsegmentationismeaningful,thispaperstudiesthedictionarynlechanismandhowtodiscoverandeliminatetheintersectionambiguityinChinesewordsegmentation,
6、nlemainresearchworkincludesthefollowingaspects:(1)Elaboratetheresearchbackground,significanceanddevelopmentstatusforChinesewordsegmentation,giveabriefinlroducetosomedistinctivesegmentationsystem.(2)G-ivedescribeindetailstothosealgorithmwhichareusedinChinesewordsegmentation,give
7、someinstancestodescribethethoughtandoperation.SummarizeallkindsofdifficultiesencounteredintheprocessandgivetheevaluationstandardforChinesewordsegmentation.(3)Thecoreindicatorofwordsegmentationisspeedandaccuracy.Throughtheresearchofseveralcommondictionariesstructure,fredtheadvan
8、tagesanddisadvantagesofeachdictionarystructure,conside