基於知網(wǎng)的語料標注手冊

基於知網(wǎng)的語料標注手冊

ID:6627681

大?。?72.00 KB

頁數(shù):63頁

時間:2018-01-20

基於知網(wǎng)的語料標注手冊_第1頁
基於知網(wǎng)的語料標注手冊_第2頁
基於知網(wǎng)的語料標注手冊_第3頁
基於知網(wǎng)的語料標注手冊_第4頁
基於知網(wǎng)的語料標注手冊_第5頁
資源描述:

《基於知網(wǎng)的語料標注手冊》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。

1、基於知網(wǎng)的語料標注手冊顏國偉香港科技大學計算機科學系譚慧敏新加坡南洋理工大學中華語言文化中心(一九九九年八月第一版)63目錄基於知網(wǎng)的語料標注手冊1一、引言3二、概念定義的格式及標識符號的用法3I.概念定義的格式3II.標識符號的用法5III.附加屬性的先後次序8三、語義辨別方法9I.語境9II.參攷知網(wǎng)的上下位描述詞關係12III.參攷知網(wǎng)的動態(tài)角色14IV.參攷知網(wǎng)描述詞所對應的英文描述15V.虛詞辨析15四、未登錄概念、新增概念的定義方法21I.人名21II.地名22III.建築物名25IV.組織名25V.數(shù)量

2、27VI.時間29VII.實體名稱29VIII.外文或音譯詞30IX.緊縮詞31X.單字縮略詞33XI.敬語35XII.增補概念35五、中研院語料的再處理36I.再切分36II.反切分38III.修改錯誤的切分38iv.修改切分不一致之處39v.修改手民之誤39六、知網(wǎng)仍未解決的問題40I.一個定義是另一定義的子集合40II.冗餘定義40III.簡繁轉換出現(xiàn)的遺漏40鳴謝41參攷文獻41附錄(一):臺灣之行政區(qū)劃(1958年)42附錄(二):一對多的簡繁字對照表5063一、引言知網(wǎng)是面向計算機的雙語常識知識庫,為創(chuàng)建

3、人董振東先生研究逾十載的重要成果,提供了設計真正的智能軟件所需的知識。知網(wǎng)共收錄了50220個漢語詞語,所含蓋的概念總量達62174個,目前尚在擴充中。作為面向漢語計算需求的知識庫,知網(wǎng)詳盡地描述了概念之間的關係,以及概念所具有的屬性之間的關係,其中兼及漢語詞目在英語對應使用中的語義概念。本文作者利用知網(wǎng)來標注臺灣中央研究院平衡語料庫(第三版)中的部分語料。臺灣中央研究院平衡語料庫(第三版)共有五百萬目詞,我們抽取了其中有關社會犯罪的報導,共三萬六千目詞。其中三萬目詞,我們利用知網(wǎng)進行人工標注。茲將標注的方法,包括概

4、念定義的格式、標識符號的用法、詞義辨別方法、未登錄概念及新增概念的定義方法等問題摘要報告,求正方家以匡不逮,亦冀方便其他學者進一步瞭解知網(wǎng),在利用知網(wǎng)進行語料標注時能取得更高的一致性和準確性。二、概念定義的格式及標識符號的用法為了使說明更清晰,以下是本文所採用的特別標記的定義:特別標記定義<可有項>可有但非必須的描述《多數(shù)項》可以有超過一個同類的描述單一項沒有任何特別標記的描述表示單一、必要的描述項一

5、項二第一項描述或者是第二項描述‘特徵’本文中橫式單引號‘’用來表示知網(wǎng)裏有嚴格定義的知識詞典描述語言。固定的特徵I.

6、概念定義的格式對實詞而言,知網(wǎng)的特徵首先分兩層:主要特徵及次要特徵,前者共分五類:事件類、事物類、部件類、屬性和數(shù)量類、屬性值和數(shù)量值類,後者包括屬性的具體分類及這些類別可以有的值見知網(wǎng)網(wǎng)頁裡頭的文件:《概念的次要特徵(1)》、《概念的次要特徵(2)》。,另加88個表示概念特性的描述見知網(wǎng)網(wǎng)頁裡頭的文件:《概念的次要特徵(3)》。。63概念類別定義格式備注事件主特徵1,<《動態(tài)角色=主特徵2

7、次特徵》>,<《<標識符>主特徵2

8、次特徵》>,複雜事件多半有至少一個動態(tài)角色事物主特徵1,<《<標識符>主特徵2

9、次特徵》>

10、,若主特徵1為“事情”,接著應標注該事情的主要特徵,無須借助於標識符號。若主特徵1與某事件存有一動態(tài)角色關係,則利用標識符表達。部件‘部件’,%主特徵,次特徵,主特徵標注該部件所屬的整體的類型。次特徵標注該部件在整體中的部位或功能。屬性數(shù)量‘屬性’,次特徵1,&主特徵

11、&次特徵2,‘數(shù)量’,次特徵1,&主特徵

12、&次特徵2,次特徵1標注該屬性和數(shù)量的具體屬性類或數(shù)量類。主特徵或次特徵2標注該具體屬性或數(shù)量的宿主的類型。屬性值數(shù)量值‘屬性值’,次特徵1,<次特徵2>,‘數(shù)量值’,次特徵1,<次特徵2>,次特徵1標注該屬性

13、值或數(shù)量值所指向的屬性或數(shù)量特徵。次特徵2標注該屬性值或數(shù)量值的具體值。虛詞的類別包括:副狀、并列、主從、助詞和單位詞,其定義格式列如下:概念類別定義格式備注單位詞i.單位ii.名量‘單位’,&次特徵

14、&主特徵,‘名量’,&次特徵

15、&主特徵,63i.動量‘動量’,&次特徵

16、&主特徵,次特徵或主特徵標注該單位、名量、動量所指向的屬性或事物的類型。餘下三類{次特徵

17、動態(tài)角色},前四個虛詞類別的詳細分類請參閱知網(wǎng)網(wǎng)頁上的文件《次要特徵(1)》。上述二表中“主特徵”、“次特徵”、“動態(tài)角色”,乃知網(wǎng)固有術語。為方便下文的討論

18、,我們引進兩個新術語,說明如下?!邦悇e屬性”:指出現(xiàn)在概念定義的第一個位置上的特徵,表示概念的類別。“附加屬性”:概念定義中第一位置以外,其他有關概念的本質(zhì)屬性或與其存有某種的語義關係的屬性。I.標識符號的用法定義一個詞語的概念(以下稱之為概念),除了標注其類別屬性,還要定出其附加屬性。知網(wǎng)的標識符,是和附加屬性一起使用的。若概念所具有的附加屬

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。