資源描述:
《語(yǔ)言系統(tǒng)國(guó)內(nèi)外發(fā)展概況》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、語(yǔ)言系統(tǒng)國(guó)內(nèi)外發(fā)展概況△國(guó)家科技部中藥基礎(chǔ)數(shù)據(jù)庫(kù)項(xiàng)目課題組尹愛寧張汝恩隨著信息技術(shù)的發(fā)展,21世紀(jì)將逐步形成了全球范圍內(nèi)數(shù)字化系統(tǒng)。信息專業(yè)性領(lǐng)域限定的弱化,促使各行業(yè)信息專業(yè)化程度有明顯上升趨勢(shì)。由此,各行業(yè)對(duì)于信息技術(shù)的需求與依賴更加突出。為滿足行業(yè)信息化的發(fā)展,信息標(biāo)準(zhǔn)化與信息基礎(chǔ)性研究成為行業(yè)的焦點(diǎn)。如何用智能化的手段處理海量信息(包括文字、圖像、語(yǔ)音等)已成為一個(gè)十分緊迫的問(wèn)題。將信息轉(zhuǎn)變?yōu)橹R(shí)、將信息基礎(chǔ)設(shè)施發(fā)展為知識(shí)基礎(chǔ)設(shè)施是21世紀(jì)的重要科研方向。重點(diǎn)解決:數(shù)據(jù)發(fā)掘、文本挖掘、知
2、識(shí)發(fā)現(xiàn)、Internet網(wǎng)上海量信息的智能化檢索和網(wǎng)上軟件機(jī)器人等。為了實(shí)現(xiàn)數(shù)據(jù)挖掘與知識(shí)的發(fā)現(xiàn),信息技術(shù)的普及化與自然化是必備的。如何建立自然人機(jī)界面與和諧的人機(jī)環(huán)境,對(duì)于計(jì)算機(jī)技術(shù)與自然語(yǔ)言的處理和專家支持系統(tǒng)都提出了更高的要求。因而建立語(yǔ)言系統(tǒng),搭建語(yǔ)言系統(tǒng)支撐平臺(tái),是完成自然語(yǔ)言處理的關(guān)鍵。目前,在信息技術(shù)競(jìng)爭(zhēng)中,已將自然語(yǔ)言處理與本體論語(yǔ)言系統(tǒng)作為重點(diǎn)。1.自然語(yǔ)言系統(tǒng):自然語(yǔ)言是指人們?nèi)粘I钪兴褂玫恼Z(yǔ)言,如漢語(yǔ)、英語(yǔ)等,它是千百年來(lái)在社會(huì)生活中自然形成的語(yǔ)言。計(jì)算機(jī)的程序設(shè)計(jì)語(yǔ)言
3、如PASCAL、C等則是由人工設(shè)計(jì)而成的語(yǔ)言,故稱為"形式語(yǔ)言"。自然語(yǔ)言處理(naturallanguageprocessing,簡(jiǎn)稱NLP)也稱為自然語(yǔ)言理解,是語(yǔ)言信息處理的一個(gè)重要分支。所謂語(yǔ)言信息處理,在我國(guó)就是中文信息處理。它是指用計(jì)算機(jī)對(duì)包括漢語(yǔ)(字)的形、音、義等信息及詞、句子。篇章的輸入、輸出、存儲(chǔ)和識(shí)別、分析。理解、生成等多方面的加工處理。其中,自然語(yǔ)言處理側(cè)重于研究計(jì)算機(jī)對(duì)于句子、篇章的處理。計(jì)算機(jī)要理解和處理自然語(yǔ)言,必須像人一樣具有詞法、句法、語(yǔ)義和語(yǔ)用等6個(gè)層次的知識(shí)
4、。它們是:①語(yǔ)音學(xué)層次,是關(guān)于對(duì)聲音的識(shí)別、理解與合成;②形態(tài)學(xué)層次,涉及對(duì)各種詞形和詞的可識(shí)別部分的處理,如前、后綴、復(fù)合詞等;③詞匯學(xué)層次,其重點(diǎn)是對(duì)全詞操作和詞匯系統(tǒng)的控制;④句法層次,它與語(yǔ)言結(jié)構(gòu)單元的鑒別有關(guān),具體而言就是對(duì)輸入的單詞序列進(jìn)行分析,看它們能否構(gòu)成合法句子,如果能給出相應(yīng)的合法句子結(jié)構(gòu);⑤語(yǔ)義層次,相對(duì)自然語(yǔ)言文本意義的識(shí)別、理解和表示,它涉及各級(jí)語(yǔ)言單位(單詞、詞組、句子、句群)所包含的意義及其在語(yǔ)言使用過(guò)程中所產(chǎn)生的意義;⑥語(yǔ)用學(xué)層次,這是△國(guó)家科技部科技基礎(chǔ)性工作專
5、項(xiàng)資金項(xiàng)目(2001DEA30039)5對(duì)涉及上下文和語(yǔ)言交際環(huán)境以及背景意義和聯(lián)想意義的語(yǔ)義分析。由于自然語(yǔ)言處理側(cè)重于句子、篇章,因而句法分析、語(yǔ)義分析、語(yǔ)用分析3方面便構(gòu)成了自然語(yǔ)言處理研究?jī)?nèi)容的基礎(chǔ)部分。自然語(yǔ)言處理研究在電子計(jì)算機(jī)問(wèn)世之初就開始了,并于50年代初開展了機(jī)器翻譯試驗(yàn)。到了60年代喬姆斯基的轉(zhuǎn)換生成語(yǔ)法得到廣泛的認(rèn)可,生成語(yǔ)法的核心是短語(yǔ)結(jié)構(gòu)規(guī)則,分析句子結(jié)構(gòu)的過(guò)程就是利用規(guī)則自頂向下或自底向上的句法樹生成過(guò)程國(guó)外在1963年就建成了早期的自然語(yǔ)言理解系統(tǒng),而我國(guó)直到198
6、0年才建成了兩個(gè)漢語(yǔ)自然語(yǔ)言理解模型,比國(guó)外起步晚了17年。八十年代中期,在國(guó)際新一代計(jì)算機(jī)激烈競(jìng)爭(zhēng)的影響下,自然語(yǔ)言理解的研究在國(guó)內(nèi)得到了更多的重視,"自然語(yǔ)言理解和人機(jī)接口"列入了新一代計(jì)算機(jī)的研制規(guī)劃,研究單位增多了,研究隊(duì)伍也壯大了。中國(guó)科學(xué)院聲學(xué)研究所、清華大學(xué)等單位成立了自然語(yǔ)言理解處理實(shí)驗(yàn)室。由于漢字系統(tǒng)的特殊性,因而對(duì)自然語(yǔ)言處理的國(guó)內(nèi)處有著很大的差異。英語(yǔ)有26個(gè)字母;中文44908個(gè)漢字(根據(jù)《中華大字典》)。英語(yǔ)起源于5世紀(jì),有一千五百年歷史,《牛津英語(yǔ)詞典》,收詞四十萬(wàn)多
7、條。漢語(yǔ)六千多年歷史,《中山大詞典》,收詞六十多萬(wàn)條,比英語(yǔ)多50%。因此實(shí)現(xiàn)自然語(yǔ)言的處理需求支撐條件之一是語(yǔ)言系統(tǒng)建設(shè)。2.語(yǔ)言系統(tǒng):語(yǔ)言系統(tǒng)被認(rèn)為是知識(shí)工程的一種技術(shù)。以往構(gòu)造知識(shí)庫(kù)的技術(shù)是局限性的。直到最近,一個(gè)新的基本知識(shí)模型的技術(shù)出現(xiàn)了。例如歐州的KADS項(xiàng)目(wielinga,1983)、美國(guó)的PROTEGE項(xiàng)目,日本的MULTIS項(xiàng)目,都來(lái)源于(clancey1985)最新的知識(shí)工程化技巧,來(lái)自于任務(wù)本體(taskontology)的想法。任務(wù)本體(taskontology)是作
8、為使用詞匯和概念構(gòu)造知識(shí)工程系統(tǒng)單元的理論。因而語(yǔ)言系統(tǒng)建立被稱為本體論。On本體論是一個(gè)哲學(xué)上的概念,用于描述事物的本質(zhì)。在近一、二十年來(lái),本體論已被計(jì)算機(jī)領(lǐng)域所采用,用于知識(shí)表達(dá)、知識(shí)共享及重用。許多學(xué)科和研究都在使用“本體”這個(gè)術(shù)語(yǔ),但存在不同的定義。在工程研究中,從知識(shí)共享的角度來(lái)說(shuō),Ontology作為一種概念化的說(shuō)明,采用框架系統(tǒng)對(duì)客觀存在的概念和關(guān)系的描述。它是通用意義上的“概念定義集”,是關(guān)于“種類”(kind)和“關(guān)系”的詞匯表。這種詞匯表,是在各種事務(wù)代理人之間交換意見時(shí)所用