基于p2p分布式的網絡爬蟲設計

基于p2p分布式的網絡爬蟲設計

ID:18677525

大?。?17.00 KB

頁數:11頁

時間:2018-09-20

基于p2p分布式的網絡爬蟲設計_第1頁
基于p2p分布式的網絡爬蟲設計_第2頁
基于p2p分布式的網絡爬蟲設計_第3頁
基于p2p分布式的網絡爬蟲設計_第4頁
基于p2p分布式的網絡爬蟲設計_第5頁
資源描述:

《基于p2p分布式的網絡爬蟲設計》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、基于層疊隱馬模型的漢語詞法分析本文得到國家重點基礎研究項目(G1998030507-4;G1998030510)和計算所領域前沿青年基金項目20026180-23資助劉群1,3張華平1,2俞鴻魁1程學旗11中國科學院計算技術研究所北京1000802中國科學院研究生院北京1000393北京大學計算語言學研究所北京100871E-mail:{liuqun,zhanghp,yuhongkui,cxq}@ict.ac.cn摘要:本文提出了一種基于層疊隱馬模型的漢語詞法分析方法,旨在將漢語分詞、詞性標注、切分排歧和未登錄詞識別集成到一個完整的理論框架中。在分詞方面,采取的是基于類的隱馬

2、模型,在這層隱馬模型中,未登錄詞和詞典中收錄的普通詞一樣處理。未登錄詞識別引入了角色HMM:Viterbi算法標注出全局最優(yōu)的角色序列,然后在角色序列的基礎上,識別出未登錄詞,并計算出真實的可信度。在切分排歧方面,作者提出了一種基于N-最短路徑的策略,即:在早期階段召回N個最佳結果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結果會在未登錄詞識別和詞性標注之后,從N個最有潛力的候選結果中選優(yōu)得到。不同層面的實驗表明,層疊隱馬模型的各個層面對漢語詞法分析都發(fā)揮了積極的作用。作者實現(xiàn)了基于層疊隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)在2002年的973專家組評測中獲得第

3、一名,在2003年漢語特別興趣研究組(theACLSpecialInterestGrouponChineseLanguageProcessing,SIGHAN)組織的第一屆國際漢語分詞大賽中綜合得分獲得兩項第一名、一項第二名。這表明:ICTCLAS是目前最好的漢語詞法分析系統(tǒng)之一,層疊隱馬模型能夠解決好漢語詞法問題。關鍵詞:漢語詞法分析;分詞;詞性標注;未登錄詞識別;層疊隱馬模型;ICTCLAS中圖法分類號:TP391.2文獻標識碼:AChineseLexicalAnalysisUsingCascadedHiddenMarkovModelLIUQun1,3ZHANGHua-P

4、ing1,2YUHong-kui1CHENGXue-Qi11InstituteofComputingTechnology,TheChineseAcademyofSciences,Beijing,100080CHINA2Graduate?School?of?the?Chinese?Academy?of?Sciences,Beijing,100039CHINA3Inst.ofComputationalLinguistics,PekingUniversity,Beijing,100871CHINAEmail:{liuqun,zhanghp,yuhongkui,cxq}@ict.ac

5、.cnAbstract:ThispaperpresentsanapproachforChineselexicalanalysisusingCascadedhiddenMarkovmodel(CHMM),whichaimstoincorporateChinesewordsegmentation,Part-Of-Speechtagging,disambiguationandunknownwordsrecognitionintoanintegratedtheoreticalframe.Aclass-basedHMMisappliedinwordsegmentation,andint

6、hismodelunknownwordsaretreatedinthesamewayascommonwordslistedinthelexicon.UnknownwordsarerecognizedwithreliabilityonrolessequencetaggedusingViterbialgorithminrolesHMM.Asfordisambiguation,theauthorsbringforthann-shortest-pathstrategythat,intheearlystage,reservesthetopNsegmentationresultsasca

7、ndidatesandcoversmoreambiguity.VariousexperimentsshowthateachlevelintheCHMMcontributestoChineselexicalanalysis.AnCHMM-basedsystemICTCLASwasaccomplished.Thesystemrankedtopintheofficialopenevaluation,whichwasheldby973projectin2002.AndICTCLASachieved2firstr

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。