信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范

信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范

ID:18705347

大?。?5.50 KB

頁數(shù):4頁

時間:2018-09-21

信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范_第1頁
信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范_第2頁
信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范_第3頁
信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范_第4頁
資源描述:

《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范1范圍本標(biāo)準(zhǔn)規(guī)定了信息處理中現(xiàn)代漢語詞類及其他切分單位的標(biāo)記代碼。適用于漢語信息處理,也可供現(xiàn)代漢語教學(xué)與研究參考。2術(shù)語和定義下列術(shù)語和定義適用于本標(biāo)準(zhǔn)。2.1漢語信息處理ChineseInformationProcessing,CIP用計算機對漢語形、音、義等信息進(jìn)行輸入、排序、存儲、輸出、統(tǒng)計、提取等。2.2切分單位SegmentUnit漢語信息處理使用的、具有確定語法功能的基本單位。它包括本標(biāo)準(zhǔn)的規(guī)則所限定的詞、短語及其他單位。2.3詞類partsofspeech,POS詞的語法分類,主要是根據(jù)語法功能劃分出來的類。2.4標(biāo)記Tag對

2、文本中切分單位的類別進(jìn)行標(biāo)注的代碼。3總則3.1切分單位的范圍本標(biāo)準(zhǔn)的切分單位包括詞、短語和其他切分單位,如習(xí)用語、縮略語、前接成分、后接成分、語素字、非語素字、標(biāo)點符號、非漢字符號等。3.2詞類劃分的原則本標(biāo)準(zhǔn)的詞類分類體系參考了呂叔湘、朱德熙、胡裕樹等先生的語法體系和《中學(xué)教學(xué)語法系統(tǒng)提要》。本標(biāo)準(zhǔn)根據(jù)漢語信息處理的特點和要求,主要依據(jù)語法功能原則劃分詞類。3.3標(biāo)記代碼的制定原則依據(jù)國際通常做法,標(biāo)記代碼主要采用英文術(shù)語的字母。例如,“名詞”,采用英文術(shù)語“noun”的首字母“n”作為標(biāo)記代碼;“數(shù)詞”,采用英文術(shù)語“numeral”的第三個字母“m”作為標(biāo)記代碼。

3、漢語獨有的,或使用英文術(shù)語字母不便的,依據(jù)國內(nèi)通常做法,標(biāo)記代碼采用漢語拼音字母。如,“縮略語”,采用漢字“簡”漢語拼音的首字母“j”作為標(biāo)記代碼;“語素字”,采用漢字“根”漢語拼音的首字母“g”作為標(biāo)記代碼。4詞類及其他切分單位分類本標(biāo)準(zhǔn)將詞類劃分為13個一級類,16個二級類;其他切分單位劃分為7個一級類,13個二級類。用戶可根據(jù)需要自行增補。4.1詞類劃分及標(biāo)記代碼4.1.1名詞(n),表示人或事物的名稱,在句子中主要充當(dāng)主語和賓語。4.1.1.1普通名詞(ng),表示事物的名稱。如:人馬書教師飛機電冰箱阿姨桌子木頭道德理論歷史思想文化因素作風(fēng)哲學(xué)4.1.1.2時間名

4、詞(nt),包括一般所說的時量詞。如:4年月日分秒現(xiàn)在過去昨天去年將來宋朝星期一4.1.1.3方位名詞(nd),表示位置的相對方向。如:上下左右前后里外中東西南北前邊左面里頭中間外部4.1.1.4處所名詞(nl),表示處所。如:空中高處隔壁門口附近邊疆一旁野外4.1.1.5人名(nh),表示人的名稱的專有名詞。華羅庚阿凡提諸葛亮司馬相如松贊干布卡爾·馬克思4.1.1.6地名(ns),表示地理區(qū)域名稱的專有名詞。如:亞洲大西洋地中海阿爾卑斯山加拿大中國北京浙江景德鎮(zhèn)呼和浩特中關(guān)村4.1.1.7族名(nn),表示民族或部落名稱的專有名詞。如:回族藏族壯族蒙古族維吾爾族哈薩克族

5、4.1.1.8機構(gòu)名(ni),表示團體、組織、機構(gòu)名稱的專有名詞。如:聯(lián)合國教育部北京大學(xué)中國科學(xué)院4.1.1.9其他專有名詞(nz)。如:五糧液宮爆雞丁桑塔納4.1.2動詞(v),表示動作、行為,心理活動、生理狀態(tài)及事物的存現(xiàn)、變化等,在句子中主要充當(dāng)謂語。4.1.2.1及物動詞(vt),能夠帶賓語。如:吃打擦洗喂借送買捧提填喜歡告訴接受羨慕考慮調(diào)查同意發(fā)動4.1.2.2不及物動詞(vi),不能夠帶賓語。如:病休息咳嗽癱瘓游泳睡覺4.1.2.3聯(lián)系動詞(vl),表示關(guān)系的判斷。如:是4.1.2.4能愿動詞(vu),表示可能、意愿。如:能夠能應(yīng)該可以可能情愿愿意要4.1.

6、2.5趨向動詞(vd),表示趨向。如:(走)上(趴)下(進(jìn))來(回)去(跑)上來(掉)下去(提)起來(扔)過去4.1.3形容詞(a),表示性質(zhì)、狀態(tài),在句中主要充當(dāng)謂語、定語、狀語和補語。4.1.3.1性質(zhì)形容詞(aq),表示性質(zhì)。如:好高美大勇敢危險漂亮干凈偉大4.1.3.2狀態(tài)形容詞(as),表示狀態(tài)。如:雪白黢黑通紅冰涼綠油油亮堂堂白花花冷冰冰4.1.4區(qū)別詞(f),表示事物的區(qū)別性特征,在句子中只能做定語修飾名詞或跟助詞“的”組成“的”字結(jié)構(gòu)。如:男女公母雌雄微型國產(chǎn)軍用4.1.5數(shù)詞(m),表示數(shù)目和次序。如:零一半百千百萬一百零八第一第十八44.1.6量詞(q

7、),表示人、事物或動作的單位。如:個條片匹輛尺斤兩噸支回次遍千瓦時4.1.7代詞(r),起替代和復(fù)指作用。如:我你他這那誰我們你們他們這個那個大家自己什么哪里怎么怎么樣4.1.8副詞(d),修飾或限制動詞和形容詞,表示范圍、程度等。在句子中做狀語。如:都只就僅很再三屢次將不卻總共正在常常重新曾經(jīng)竟然居然4.1.9介詞(p),引介名詞性成分,不單獨充當(dāng)句子成分。如:把被從向?qū){按照對于為了自從關(guān)于4.1.10連詞(c),連接詞、短語或句子,表示兩者之間所具有的某種關(guān)系。如:和同與及并或并且而且或者因為所以4.1.11助詞(u),

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。