資源描述:
《關(guān)于新的句法標(biāo)注模型探索論文》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、關(guān)于新的句法標(biāo)注模型探索論文.freelodel),認(rèn)識就是建立認(rèn)識對象的模型,簡稱建模(modeling)。這是一種實(shí)用主義認(rèn)識觀。模型一般分為心理模型(psychologicalmodel)、數(shù)學(xué)模型(mathematicalmodel)和物理模型(physicalmodel)。心理模型是認(rèn)識對象在人認(rèn)識中的定性關(guān)系,是數(shù)學(xué)模型的基礎(chǔ);數(shù)學(xué)模型是認(rèn)識對象在人認(rèn)識中的定量關(guān)系,是物理模型的基礎(chǔ);物理模型是人借助特定材料和工具按照認(rèn)識對象的數(shù)學(xué)模型實(shí)現(xiàn)的物質(zhì)結(jié)構(gòu)。傳統(tǒng)意義上的建模主要指建立數(shù)學(xué)模型和物理模型,一般意義上的建模還包括建立心理模型。人的認(rèn)識能力
2、是有限的,表現(xiàn)在:人不能建立任意認(rèn)識對象的心理模型,也不能建立任意心理模型的數(shù)學(xué)模型,也不能建立任意數(shù)學(xué)模型的物理模型。由于具有明確的實(shí)用主義特點(diǎn),建模在理工科領(lǐng)域大行其道,在文科領(lǐng)域也逐漸受到青睞。人類將二進(jìn)制數(shù)學(xué)模型成功實(shí)現(xiàn)為晶體管物理模型,并開發(fā)出越來越復(fù)雜和先進(jìn)的計(jì)算機(jī)軟件和硬件,從而進(jìn)入信息時代。20世紀(jì)以來一些主要或次要的語言理論都或多或少應(yīng)用了數(shù)學(xué)模型,特別是一些面向語言計(jì)算的語言理論。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,人們對計(jì)算機(jī)自動或輔助處理語言信息的需求越來越大。但計(jì)算機(jī)的根本缺陷在于,凡是不能建立數(shù)學(xué)模型的信息都無法處理。傳統(tǒng)語言理論往往只在
3、心理模型層面定性研究,無法滿足這一需要。因此有必要引入數(shù)學(xué)模型研究語言,稱為語言數(shù)學(xué)模型,簡稱語言模型(1anguagemodel)。統(tǒng)計(jì)語言模型(sta-tisticallanguagemodel)就是一個成功的例子。但統(tǒng)計(jì)語言模型的性能取決于訓(xùn)練語料的規(guī)模和質(zhì)量。目前,由于語料的不斷積累和計(jì)算機(jī)技術(shù)的不斷進(jìn)步,語料規(guī)模已不成問題,語料中包含語言知識的數(shù)量和質(zhì)量才是關(guān)鍵。計(jì)算機(jī)的語言知識主要來源于人。將語料中包含的語言知識標(biāo)注出來,有助于計(jì)算機(jī)獲得更豐富、更有價值的語言知識,從而提高語言處理水平,這就是語料標(biāo)注(corpustagging)。一般認(rèn)為主要
4、包括詞匯標(biāo)注(1exicaltagging,分詞、詞結(jié)構(gòu)標(biāo)注、詞性標(biāo)注、詞義標(biāo)注等)、句法標(biāo)注(syntaxtagging,語法樹標(biāo)注、語義樹標(biāo)注等)、語篇標(biāo)注(discoursetagging,語體標(biāo)注、領(lǐng)域標(biāo)注等)等內(nèi)容。經(jīng)過標(biāo)注的語料還可以用于語言學(xué)研究、語言教學(xué)、語言測試、詞典編撰等諸多理論研究和實(shí)踐應(yīng)用領(lǐng)域,越來越受到人們重視,并形成一門新興學(xué)科——語料庫語言學(xué)(corpuslinguistics)。目前,相對句法標(biāo)注,詞匯標(biāo)注有更成熟的規(guī)范、準(zhǔn)確率更高的技術(shù)和更大的標(biāo)注規(guī)模。句法標(biāo)注的主要困難在于,沒有一個真正成熟的語法或語義標(biāo)注模型。句法結(jié)構(gòu)
5、尤其是語義結(jié)構(gòu)很難統(tǒng)一描述,現(xiàn)有的句法理論還不完善,難以制定統(tǒng)一規(guī)范,標(biāo)注主觀性很大,自動標(biāo)注準(zhǔn)確率比較低。因此,句法標(biāo)注成了語料標(biāo)注的瓶頸問題。由于句法知識在語言知識中的重要地位,有理由相信:如果有了大規(guī)模、高質(zhì)量的句法標(biāo)注語料庫,圍繞語料庫的各種研究和應(yīng)用有可能在現(xiàn)有基礎(chǔ)上產(chǎn)生質(zhì)的飛躍。因此,研究句法標(biāo)注模型應(yīng)是當(dāng)務(wù)之急。語料庫語言學(xué)屬于交叉學(xué)科,句法標(biāo)注模型是語料庫語言學(xué)的基礎(chǔ)理論,又與語言學(xué)的句法理論密切相關(guān)。一方面可以借鑒現(xiàn)有句法理論,另一方面,也可以從語料庫語言學(xué)的角度研究句法,提出新的句法標(biāo)注模型。二、現(xiàn)有句法標(biāo)注模型句法標(biāo)注(SyntaxT
6、agging,ST)以句子的語法知識和語義知識為標(biāo)注對象,是語料標(biāo)注的重點(diǎn)、難點(diǎn)所在,要以一定的語法理論為基礎(chǔ)。根據(jù)語法理論制定的句法標(biāo)注規(guī)則、過程和結(jié)果,稱為句法標(biāo)注模型(SyntaxTaggingModel,STM)。短語結(jié)構(gòu)語法(PhraseStructureGrammar,PSG)和依存語法(DependencyGrammar,DG)是現(xiàn)有句法標(biāo)注的兩種基礎(chǔ)語法理論,彼此卻有很大的不同。基于PSG的句法標(biāo)注模型稱為短語結(jié)構(gòu)句法標(biāo)注模型(PSG—basedTaggingMod—el,PSGTM),基于DG的句法標(biāo)注模型稱為依存句法標(biāo)注模型(DG—ba
7、sedTaggingModel,DGTM)。根據(jù)現(xiàn)有語料標(biāo)注的實(shí)踐結(jié)果來看,PSGTM與DGTM都存在一定缺陷。美國語言學(xué)家喬姆斯基(NoamChomsky)于1957年出版專著《句法結(jié)構(gòu)》,從而奠定了短語結(jié)構(gòu)語法(PSG)的理論基礎(chǔ)。其后發(fā)展起來的許多語法理論可以直接或間接歸到這一流派,如中心詞驅(qū)動的短語結(jié)構(gòu)語法(HPSG)、廣義短語結(jié)構(gòu)語法(GPSG)等。到目前為止,PSG仍然是最重要的句法標(biāo)注基礎(chǔ)理論,為世界上眾多語料庫項(xiàng)目所采用和發(fā)展。法國語言學(xué)家特思尼耶爾(LucienTesnire)于1959年出版專著《結(jié)構(gòu)句法基礎(chǔ)》,從而奠定了依存語法(DG
8、)的理論基礎(chǔ)。其后發(fā)展起來的許多語法理論可以直接或間接歸到這一流派