漢語句子的組塊分析體系

漢語句子的組塊分析體系

ID:37699886

大小:66.00 KB

頁數:10頁

時間:2019-05-29

漢語句子的組塊分析體系_第1頁
漢語句子的組塊分析體系_第2頁
漢語句子的組塊分析體系_第3頁
漢語句子的組塊分析體系_第4頁
漢語句子的組塊分析體系_第5頁
資源描述:

《漢語句子的組塊分析體系》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、*漢語句子的組塊分析體系周強孫茂松黃昌寧智能技術與系統(tǒng)國家重點實驗室清華大學計算機科學與技術系,北京100084摘要:本文介紹了一種介于線性詞序列和完整句法樹表示之間的淺層句法知識描述體系:組塊分析體系,并詳細討論了其中兩大部分:詞界塊和成分組的基本內容及其自動識別算法。在此基礎上進行的一系列句法分析和知識獲取實驗證明了這種知識描述體系的實用性和有效性。關鍵詞:詞界塊,成分組,部分分析,句法分析。1引言句法分析是自然語言處理研究中的重點和難點。針對完整的句法分析方法在分析大規(guī)模真實文本中遇到的困難,許多研究人員

2、開始嘗試著把一個完整的句法分析問題分解為幾個易于處理的子問題,以逐步降低完整句法分析的難度,提高分析效率。這其中一個很成功的例子是將詞性標注(Part-Of-SpeechTagging)從句法分析中分離出來。通過利用局部語境信息進行基于規(guī)則或基于統(tǒng)計的詞類排歧,目前的大部分詞性標注工具對真實文本的標注正確率都達到了96%以上,為在此基礎上進一步進行句法分析打下了很好的基礎。依據同樣的研究思路,StevenAbney提出了塊分析(chunkparsing)的策略[Abn91],通過引進句法塊(chunk)概念,他

3、將句法分析問題分為三個階段:1)塊識別:利用基于有限狀態(tài)分析機制的塊識別器(chunker)快速識別出句子中所有的塊。2)塊內結構分析:對每個塊內部的成分賦予合適的句法結構。3)塊間關系分析:利用塊連接器(attacker)將各個不同的塊組合成完整的句法結構樹。這樣,一方面由于對不同的子問題的準確功能定位,可以獨立地選用不同的語言模型和搜索策略加以分析處理;另一方面,通過在塊層次上進行自底向上的塊間關系分析和自頂向下的塊內結構分析,可以大大提高整體分析效率,達到降低句子分析難度的目的。塊分析策略的精髓在于尋找到

4、合適的切入點,將完整的句法分析問題分解為句法拓樸結構分析和句法關系分析兩個子問題。StevenAbney在研究英語分析過程中發(fā)現了這樣一個現象:本來可以很自然地期望短語結構(phrasestructure)在音律結構(prosodicstructure)邊界預測中發(fā)揮重要作用,但事實上,傳統(tǒng)的短語結構描述與音律結構以及一些心理語言學家提出的語言應用結構(performancestructure)之間存在著許多不一致現象[Abn92]。為解決這個問題,他提出可以將標準的短語結構描述分解成兩大部分:1)一組直接成分

5、塊,即chunk,2)成分塊之間的句法依存(dependance)關系,從而在直接成分塊和音律結構的φ-短語之間建立了很好的一一對應關系[Abn95]。將這一思想不斷發(fā)展和完善,逐漸形成了他獨特的塊分析體系。漢語的句法體系是在大量吸收和借鑒英語句法描述體系的有關內容和知識的基礎上建立起來的。幾十年來,盡管許多漢語語言學家進行了艱苦的努力,提出了一些有效的漢語句法分析方法,如:中心成分分析法、層次分析法等,但究竟其中哪種方法更適合于漢語還存在著許多爭論。另外,對于漢語句法體系中的一些基本問題,如:漢語詞類的確定,

6、句法描述體系的建立等,還有許多值得商榷之處。漢語句法研究的這種現狀,給進行漢語信息處理*國家自然科學基金資助項目(編號:69705005),中國博士后科學基金資助項目。1研究的人員帶來了許多不便。在這種條件下,進行與Abney的研究相類似的漢語淺層句法知識描述體系的探索,就顯得很有現實意義了。本文針對漢語分析的特點,提出了一種漢語句子的組塊分析體系。它通過引入詞界塊和成分組概念,將成分邊界辨識問題從完整的句法分析任務中分離出來,形成具有不同層次的成分邊界限制信息的組塊描述體系。作為一種基本上獨立于各種句法描述形

7、式的句子拓樸結構,在此基礎上可以方便地采用不同的句法分析方法產生句子的不同分析結果,如:分析結構樹、依存關系樹等。在下面的幾節(jié)中,第2節(jié)詳細介紹了組塊分析體系的基本內容,包括詞界塊定義和成分組描述,第3節(jié)介紹組塊分析體系的一個重要應用:分層次地構建漢語樹庫,第4節(jié)介紹了組塊分析體系的其他重要應用,最后的第5節(jié)是結束語。2組塊分析體系針對漢語句子的句法分布特點,我們提出了這樣的組塊分析體系。它在經過正確切詞和詞性標注處理的輸入句子中,分析產生以下兩部分信息:1)詞界塊:通過為句子中的每個詞賦予合適的成分邊界信息,

8、形成一個連續(xù)的詞界塊序列。2)成分組:通過識別和標注句子中一些特殊的成分組合區(qū)域,形成一組分立的成分組描述。在下面的幾節(jié)中,我們將對有關的內容進行詳細的說明。2.1詞界塊定義自然語言的句子是由詞組成的。詞在組句過程中體現出一定的層次性。而句法分析的主要任務就是要尋找適當的方法把這些層次關系很好地描述出來。例如:對于(1)中給出的漢語句子:我的弟弟給了他一本書。(1)利用語言分析中常用的

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。