資源描述:
《基于中介語料庫的漢字偏誤標記研究.doc》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在工程資料-天天文庫。
1、基于中介語料庫的漢字偏誤標記研究摘要:本文就漢字偏誤在中介語料庫中標記的問題進行探討,通過對兒人區(qū)留學生主耍產(chǎn)生的偏誤進行分類總結(jié)、分列出現(xiàn)有的一些對漢字偏誤的標記、結(jié)合留學牛大致的偏誤類型結(jié)合各類標記的優(yōu)缺點提出意見。關鍵詞:中介語料庫;漢字偏誤;漢字偏誤標記1.以歐洲、日木和東南亞華裔留學生為代表的漢字偏誤類型根據(jù)四川外語學院留學生部的掃描資料進行歸納、總結(jié),列舉以下三大板塊留學生的偏誤類型,以便根據(jù)其偏誤類型做出具體的標記模式。1.1歐美學生的漢字偏誤類型歐美學生偏誤類型主要體現(xiàn)在由于漢字的表意文字和歐美的拼音文字的巨大差界造成的
2、歐美學生在學習漢字時常常將橫、豎寫成弧狀,化曲為直。通過對歐美留學生產(chǎn)生的偏誤類型進行歸納總結(jié),大致有如下幾種:一是用本國的字母字形來代替漢字的某些漢字的筆畫和部件以及部件異位的情況;二是書寫漢字時結(jié)構殘缺不全。歐美留學生常常分不清楚具體的結(jié)構,把左右結(jié)構的字拆分成了兩個字,上中下結(jié)構的字拆成了兩到三個字。例如:“標”,他們寫成了“木”和“示”等等;三是誤加筆畫或者遺漏筆畫,尤其是筆畫稍微復雜點的字,歐美留學生在書寫的時候經(jīng)常容易岀現(xiàn)錯誤。例如“真”字中間的三橫寫成兩橫;四是形似字書寫的偏誤,即部件變形。例如:“矛”和“予”;五是同音字
3、或近似音字間的替換。例如「間”和“見”、“管”和“關”;六是筆順問題。英語的書寫沒有筆順的要求,他們受到母語的影響,往往通過“畫”的方式進行書寫。1.2日本留學生的漢字偏誤類型造成日本留學生漢字偏誤的原因大致是:繁簡的差異,同一個文字在口語和中文中表達意思不同,相似的字之間有很細微的筆畫差異。根據(jù)語料庫的統(tǒng)計,“為、時、個、親、現(xiàn)、說、長、后、認、題”等在口語書寫符號中都以繁體形式出現(xiàn),導致其學習漢字錯誤率排在前20位。中日的漢字有一部分是來源于相同的漢字轉(zhuǎn)化,但是轉(zhuǎn)化的方式卻不同,這也就導致了FI本學生在書寫的時候易出現(xiàn)偏誤。比如:這
4、樣的“樣”寫成了“?印保?“講話”寫成了“?V?”,“因?掠萬?)我遲到了,所以被老??(師)罵”。漢字中形似字跡很多,這也導致口本留學生在書寫漢字時往往忽略細小的差異造成偏誤。如:“只有兩天,家里人有事兒不敢(左邊的橫折少寫一橫或者一折)去”。中文與口文有很多字和書寫形式都很像。所以在書寫時當中口雙方某個常用漢字形狀相近但字形差異不止一處時,往往容易造成偏誤。如:把“及時”寫成“急時”;把“場合”寫成了“合”1.3東南亞華裔留學生的漢字偏誤類型東南亞留學生他們的偏誤類型更加復朵多樣且各類偏誤的數(shù)量分布極不均衡。具體的偏誤類型大致分為以
5、下一系列情況:部件錯寫或錯用;筆畫增減;音形皆近偏誤;筆形錯誤和筆畫組合關系錯誤;字形相近;聲韻母均同;漢字所無筆畫;不規(guī)范字;部件增減;部件鏡像位置改變;韻母相同;聲同;受到上下文或者方言的影響。各個地區(qū)的留學生產(chǎn)生的偏誤都有所差異,如何能利用這些差異,并總結(jié)出一定的規(guī)律用于實踐教學也是中介語料庫的意義所在。我們希望通過語料庫屮記錄的相關資料,能順利、便捷的找出某一類型的偏誤,并有與之對應的實例及出現(xiàn)偏誤的學者的相關背景資料。如果能通過計算機直接檢索到歐美或者日韓學生的漢字偏誤類型也將會對漢字教學起到重要的作用。所以統(tǒng)一而口規(guī)范的標記
6、能將中介語料庫里面收錄的真實材料迅速的檢索出來并用于教學。2.以北京語言大學屮介語語料庫為例,討論其標記漢字偏誤的方法北語的中介語語料庫相對較為完善,并已經(jīng)創(chuàng)制出一套系統(tǒng)的偏誤標記方法。該語料庫語料均記錄有作者姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學主要教材、語料類別、寫作時間、提供者等23項屬性?!皾h語中介語料庫系統(tǒng)”對抽樣語料按照字、詞、句、篇等不同層次進行了加工和標注,對語料樣本的非規(guī)范形式做出索引標記,并登錄其相應的規(guī)范形式。用這種方式建立起來的語料庫可以直接用電腦進行索引,并且信息的涵蓋量比較大。XML與語言
7、錯誤標注是其具體的標注錯誤方式。利用XML提供的標記功能可以對中介語語料庫中的錯誤進行標注。語料庫資料錄入的都是來自真實的留學生資料,在制定程序前就必須對留學生的漢字偏誤類型進行分類,比如是屬于筆畫缺失、增添還是結(jié)構錯誤等。在處理好之后就可以運用電腦軟件對其進行標記了。如:“我字習漢語一年了”,常用的XML標注方法「我/r字/n習/vg漢語/nz-/m年/q了/y。/叭”里面是錯誤所屬的大類,并且要成對標記,內(nèi)容為“錯誤修正/錯誤小類”。這種XML標注在理論上有很強的實用性,但是標注過程極為復雜并且有時不一定能夠準確找到偏誤類型。這種標
8、注法使用起來也有一定的I木I難,可能會出現(xiàn)看不懂的情況。要熟練的運用這種標注法必須準確的記住相應字母代表的意義,比如nz、y、vg具體代表什么意思,這樣就在無形中減少了利用其相關標記符號和知識的便捷性。但是