資源描述:
《基于詞聚類的依存句法分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第42卷第7期中南大學(xué)學(xué)報(自然科學(xué)版)Vol.42No.72011年7月JournalofCentralSouthUniversity(ScienceandTechnology)July2011基于詞聚類的依存句法分析1,2袁里馳(1.江西財經(jīng)大學(xué)信息學(xué)院,江西南昌,330013;2.中南大學(xué)信息科學(xué)與工程學(xué)院,湖南長沙,410083)摘要:利用語義、語法等語言知識,對中心詞驅(qū)動的句法分析模型規(guī)則進行分解和修改,結(jié)合分詞、詞性標注進行句法分析,提出一種可同時考慮多個語義依存關(guān)系的模型。利用互信息給出基
2、于鄰接關(guān)系、語義依存關(guān)系的2種詞相似度定義,提出一種自下而上的分層聚類算法,以解決中心詞驅(qū)動模型數(shù)據(jù)稀疏問題,用改進的句法分析模型進行句法分析實驗。研究結(jié)果表明:模型精確率和召回率分別為88.14%和86.93%,綜合指標比Collins頭驅(qū)動句法分析模型的綜合指標提高6.09%。關(guān)鍵詞:自然語言處理;詞聚類;中心詞驅(qū)動模型;句法分析統(tǒng)計模型中圖分類號:TP391.1文獻標志碼:A文章編號:1672?7207(2011)07?2023?05DependencylanguageParsingmodelba
3、sedonwordclustering1,2YUANLi-chi(1.SchoolofInformationTechnology,JiangxiUniversityofFinance&Economics,Nanchang330013,China;2.SchoolofInformationScienceandEngineering,CentralSouthUniversity,Changsha410083,China)Abstract:Byincorporatinglinguisticfeaturessu
4、chassemanticdependencyandsyntacticrelations,anovelstatisticalParsingmodelwasproposed.Themodelwasconstructedoncluster,andtheproblemofdatasparsenesswasnotserious.Themodeltookadvantageofafewsemanticdependenciesatthesametime,anditwasaparserbasedonlexicalized
5、model.Experimentswereconductedfortherefinedstatisticalparser.Theresultsshowthatprecisionandrecallare88.14%and86.93%,respectively,andcomprehensivefactorisimprovedby6.09%comparedwiththatofthehead-drivenparsingmodel.Keywords:naturallanguageprocessing;wordcl
6、ustering;head-drivenparsingmodel;statisticalParsingmodel[1]句法分析是指根據(jù)給定的語法,自動地識別出規(guī)則的方法是以知識為主體的理性主義(Rationalism)句子所包含的句法單位和這些句法單位之間的關(guān)系。方法,以語言學(xué)理論為基礎(chǔ),強調(diào)語言學(xué)家對語言現(xiàn)句法分析是自然語言理解的一個關(guān)鍵組成部分,是對象的認識,采用非歧義的規(guī)則形式描述或解釋歧義行自然語言語義進行進一步分析的基礎(chǔ)。隨著自然語言為或歧義特性;基于統(tǒng)計的句法分析必須以某種方式應(yīng)用的日益廣泛
7、,特別是對文本處理需求的進一步增對語言的形式和語法規(guī)則進行描述,而且這種描述必加,句法分析的作用愈加突出,它幾乎成為大多數(shù)自須可以通過對已知句法分析結(jié)果的訓(xùn)練獲得,這便是[4?10]然語言處理應(yīng)用的關(guān)鍵因素,如機器翻譯、信息抽取、句法分析模型。基于樹庫的統(tǒng)計句法分析是現(xiàn)代問答系統(tǒng)、檢索系統(tǒng)等。句法分析的研究大體分為2句法分析的主流技術(shù)。構(gòu)建統(tǒng)計句法分析模型的目的[2][3]種途徑:基于規(guī)則的方法和基于統(tǒng)計的方法?;谑且愿怕实男问皆u價若干個可能的句法分析結(jié)果(通收稿日期:2010?07?11;修回日期:
8、2010?10?08基金項目:國家自然科學(xué)基金資助項目(60763001);江西省自然科學(xué)基金資助項目(2009GZS0027,2010GZS0072);全國教育科學(xué)“十一五”規(guī)劃課題(ECA080292)通信作者:袁里馳(1973?),男,湖南邵陽人,博士后,副教授,從事語音識別與自然語言處理研究;電話:0791-3983891;E-mail:yuanlichi@sohu.com2024中南大學(xué)學(xué)報(自然科學(xué)版)第42卷常表示為語法樹形式