資源描述:
《基于opengl粒子系統(tǒng)的噴泉模擬》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于層疊隱馬模型的漢語詞法分析本文得到國家重點(diǎn)基礎(chǔ)研究項(xiàng)目(G1998030507-4;G1998030510)和計算所領(lǐng)域前沿青年基金項(xiàng)目20026180-23資助劉群1,3張華平1,2俞鴻魁1程學(xué)旗11中國科學(xué)院計算技術(shù)研究所北京1000802中國科學(xué)院研究生院北京1000393北京大學(xué)計算語言學(xué)研究所北京100871E-mail:{liuqun,zhanghp,yuhongkui,cxq}@ict.ac.cn摘要:本文提出了一種基于層疊隱馬模型的漢語詞法分析方法,旨在將漢語分詞、詞性標(biāo)注、切分排歧和未登錄詞識別集成到一個完整的
2、理論框架中。在分詞方面,采取的是基于類的隱馬模型,在這層隱馬模型中,未登錄詞和詞典中收錄的普通詞一樣處理。未登錄詞識別引入了角色HMM:Viterbi算法標(biāo)注出全局最優(yōu)的角色序列,然后在角色序列的基礎(chǔ)上,識別出未登錄詞,并計算出真實(shí)的可信度。在切分排歧方面,作者提出了一種基于N-最短路徑的策略,即:在早期階段召回N個最佳結(jié)果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結(jié)果會在未登錄詞識別和詞性標(biāo)注之后,從N個最有潛力的候選結(jié)果中選優(yōu)得到。不同層面的實(shí)驗(yàn)表明,層疊隱馬模型的各個層面對漢語詞法分析都發(fā)揮了積極的作用。作者實(shí)現(xiàn)了基于層
3、疊隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)在2002年的973專家組評測中獲得第一名,在2003年漢語特別興趣研究組(theACLSpecialInterestGrouponChineseLanguageProcessing,SIGHAN)組織的第一屆國際漢語分詞大賽中綜合得分獲得兩項(xiàng)第一名、一項(xiàng)第二名。這表明:ICTCLAS是目前最好的漢語詞法分析系統(tǒng)之一,層疊隱馬模型能夠解決好漢語詞法問題。關(guān)鍵詞:漢語詞法分析;分詞;詞性標(biāo)注;未登錄詞識別;層疊隱馬模型;ICTCLAS中圖法分類號:TP391.2文獻(xiàn)標(biāo)識碼:AChine
4、seLexicalAnalysisUsingCascadedHiddenMarkovModelLIUQun1,3ZHANGHua-Ping1,2YUHong-kui1CHENGXue-Qi11InstituteofComputingTechnology,TheChineseAcademyofSciences,Beijing,100080CHINA2Graduate?School?of?the?Chinese?Academy?of?Sciences,Beijing,100039CHINA3Inst.ofComputationalLin
5、guistics,PekingUniversity,Beijing,100871CHINAEmail:{liuqun,zhanghp,yuhongkui,cxq}@ict.ac.cnAbstract:ThispaperpresentsanapproachforChineselexicalanalysisusingCascadedhiddenMarkovmodel(CHMM),whichaimstoincorporateChinesewordsegmentation,Part-Of-Speechtagging,disambiguati
6、onandunknownwordsrecognitionintoanintegratedtheoreticalframe.Aclass-basedHMMisappliedinwordsegmentation,andinthismodelunknownwordsaretreatedinthesamewayascommonwordslistedinthelexicon.UnknownwordsarerecognizedwithreliabilityonrolessequencetaggedusingViterbialgorithminr
7、olesHMM.Asfordisambiguation,theauthorsbringforthann-shortest-pathstrategythat,intheearlystage,reservesthetopNsegmentationresultsascandidatesandcoversmoreambiguity.VariousexperimentsshowthateachlevelintheCHMMcontributestoChineselexicalanalysis.AnCHMM-basedsystemICTCLASw
8、asaccomplished.Thesystemrankedtopintheofficialopenevaluation,whichwasheldby973projectin2002.AndICTCLASachieved2firstr