資源描述:
《關(guān)+于新的句法標(biāo)注模型探索》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、DOC格式論文,方便您的復(fù)制修改刪減關(guān)于新的句法標(biāo)注模型探索(作者:___________單位:___________郵編:___________) 論文關(guān)鍵詞:語料庫語言學(xué) 語義處理 句法標(biāo)注模型 論文摘要:由于自然語言的語義存在不確定性,形式化很困難,因此語義處理成為自然語言處理的瓶頸所在。基于大規(guī)模標(biāo)注語料庫的語義處理已經(jīng)成為發(fā)展趨勢(shì),語料標(biāo)注本質(zhì)上就是語言知識(shí)(包括語義)形式化?,F(xiàn)有句法標(biāo)注模型主要包括基于短語結(jié)構(gòu)語法(PSG)和基于依存語法(DG)的句法標(biāo)注模型,還存在一些局限性。文章在現(xiàn)有句法標(biāo)
2、注模型的基礎(chǔ)上結(jié)合認(rèn)知語法(CG)的有關(guān)理論提出改進(jìn)思路,以探索新的句法標(biāo)注模型?! ∪祟惿鐣?huì)發(fā)展的基本軌跡是:原始社會(huì)—農(nóng)業(yè)社會(huì)—工業(yè)社會(huì)—DOC格式論文,方便您的復(fù)制修改刪減信息社會(huì)。人工智能的目標(biāo)是用計(jì)算機(jī)模擬人的智能,以最大限度地解放和延伸人的智能,無疑是信息社會(huì)的制高點(diǎn)。語言是人思維的物質(zhì)外殼,人不可能離開語言而具備真正屬于人的高級(jí)智能。因此,模擬人類語言智能的自然語言處理無疑是人工智能的重要研究方向。然而,迄今為止的研究表明,在可以預(yù)見的將來,語義處理將是自然語言處理的瓶頸所在。原因是語義十分復(fù)
3、雜,而基于現(xiàn)有計(jì)算機(jī)軟硬件的自然語言處理要求語義形式化。解決這一問題的根本之道是:探索新的句法標(biāo)注模型,進(jìn)行大規(guī)模的語義標(biāo)注,基于語料庫進(jìn)行語義知識(shí)獲取和自然語言處理。 一、句法標(biāo)注模型 語言的復(fù)雜性在于語言與認(rèn)識(shí)的關(guān)系。語言具有意義,而意義是入對(duì)主客觀世界的認(rèn)識(shí)結(jié)果。主客觀世界的復(fù)雜性決定了意義的復(fù)雜性,進(jìn)一步?jīng)Q定了語言的復(fù)雜性。語言本身又可以視為人的主客觀世界中的一部分,因此語言研究是一種特殊的認(rèn)識(shí)活動(dòng),是人對(duì)語言的認(rèn)識(shí)。由此可見,語言離不開認(rèn)識(shí)。人對(duì)主客觀世界的認(rèn)識(shí)可以如此描述:認(rèn)識(shí)主體借助認(rèn)
4、識(shí)工具按照認(rèn)識(shí)方法處理認(rèn)識(shí)對(duì)象獲得認(rèn)識(shí)結(jié)果。認(rèn)識(shí)是由多種認(rèn)識(shí)因素(主體、工具、方法、對(duì)象)共同作用的活動(dòng),認(rèn)識(shí)結(jié)果是這一活動(dòng)的產(chǎn)物,被多種認(rèn)識(shí)因素共同決定,任何一種認(rèn)識(shí)因素的改變必然導(dǎo)致認(rèn)識(shí)結(jié)果出現(xiàn)或大或小的差異。顯然,認(rèn)識(shí)結(jié)果與認(rèn)識(shí)對(duì)象不能等同,是認(rèn)識(shí)主體對(duì)認(rèn)識(shí)對(duì)象的選擇性反映,認(rèn)識(shí)具有主觀能動(dòng)性。從這個(gè)意義上講。認(rèn)識(shí)不可能也不應(yīng)該去被動(dòng)地還原認(rèn)識(shí)對(duì)象,而是從符合主體目的性出發(fā),力求簡(jiǎn)單有效地描述和預(yù)測(cè)認(rèn)識(shí)對(duì)象。借用模型的概念,認(rèn)識(shí)結(jié)果就是認(rèn)識(shí)對(duì)象的模型(model),認(rèn)識(shí)就是建立認(rèn)識(shí)對(duì)象的模型,簡(jiǎn)稱建模(m
5、odeling)。這是一種實(shí)用主義認(rèn)識(shí)觀。DOC格式論文,方便您的復(fù)制修改刪減 模型一般分為心理模型(psychologicalmodel)、數(shù)學(xué)模型(mathematicalmodel)和物理模型(physicalmodel)。心理模型是認(rèn)識(shí)對(duì)象在人認(rèn)識(shí)中的定性關(guān)系,是數(shù)學(xué)模型的基礎(chǔ);數(shù)學(xué)模型是認(rèn)識(shí)對(duì)象在人認(rèn)識(shí)中的定量關(guān)系,是物理模型的基礎(chǔ);物理模型是人借助特定材料和工具按照認(rèn)識(shí)對(duì)象的數(shù)學(xué)模型實(shí)現(xiàn)的物質(zhì)結(jié)構(gòu)。傳統(tǒng)意義上的建模主要指建立數(shù)學(xué)模型和物理模型,一般意義上的建模還包括建立心理模型。人的認(rèn)識(shí)能力是有限
6、的,表現(xiàn)在:人不能建立任意認(rèn)識(shí)對(duì)象的心理模型,也不能建立任意心理模型的數(shù)學(xué)模型,也不能建立任意數(shù)學(xué)模型的物理模型。由于具有明確的實(shí)用主義特點(diǎn),建模在理工科領(lǐng)域大行其道,在文科領(lǐng)域也逐漸受到青睞。人類將二進(jìn)制數(shù)學(xué)模型成功實(shí)現(xiàn)為晶體管物理模型,并開發(fā)出越來越復(fù)雜和先進(jìn)的計(jì)算機(jī)軟件和硬件,從而進(jìn)入信息時(shí)代。20世紀(jì)以來一些主要或次要的語言理論都或多或少應(yīng)用了數(shù)學(xué)模型,特別是一些面向語言計(jì)算的語言理論。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,人們對(duì)計(jì)算機(jī)自動(dòng)或輔助處理語言信息的需求越來越大。但計(jì)算機(jī)的根本缺陷在于,凡是不能建立數(shù)學(xué)模
7、型的信息都無法處理。傳統(tǒng)語言理論往往只在心理模型層面定性研究,無法滿足這一需要。因此有必要引入數(shù)學(xué)模型研究語言,稱為語言數(shù)學(xué)模型,簡(jiǎn)稱語言模型(1anguagemodel)。統(tǒng)計(jì)語言模型(sta-tisticallanguagemodel)就是一個(gè)成功的例子。但統(tǒng)計(jì)語言模型的性能取決于訓(xùn)練語料的規(guī)模和質(zhì)量。目前,由于語料的不斷積累和計(jì)算機(jī)技術(shù)的不斷進(jìn)步,語料規(guī)模已不成問題,語料中包含語言知識(shí)的數(shù)量和質(zhì)量才是關(guān)鍵。DOC格式論文,方便您的復(fù)制修改刪減 計(jì)算機(jī)的語言知識(shí)主要來源于人。將語料中包含的語言知識(shí)標(biāo)注出來
8、,有助于計(jì)算機(jī)獲得更豐富、更有價(jià)值的語言知識(shí),從而提高語言處理水平,這就是語料標(biāo)注(corpustagging)。一般認(rèn)為主要包括詞匯標(biāo)注(1exicaltagging,分詞、詞結(jié)構(gòu)標(biāo)注、詞性標(biāo)注、詞義標(biāo)注等)、句法標(biāo)注(syntaxtagging,語法樹標(biāo)注、語義樹標(biāo)注等)、語篇標(biāo)注(discoursetagging,語體標(biāo)注、領(lǐng)域標(biāo)注等)等內(nèi)容。經(jīng)過標(biāo)注的語料還可以用于語言學(xué)研究、