資源描述:
《漢語中介語語料庫建設(shè)研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、漢語中介語語料庫建設(shè)研究沈銳1,黃薇2(1.紅河學(xué)院教育技術(shù)系2.紅河學(xué)院國際合作與交流處云南蒙自661100)【摘要】本文探討母語非漢語學(xué)習(xí)者的漢語中介語語料庫建設(shè)的主要思路以及具體實(shí)現(xiàn)方法,重點(diǎn)介紹了漢語中介語語料的加工方法以及語料數(shù)據(jù)庫的設(shè)計(jì)思路,并闡明了該語料庫在對外漢語教學(xué)和研究中的應(yīng)用價(jià)值?!娟P(guān)鍵詞】語料庫;中介語;漢語教學(xué)語料庫是指按一定的語言學(xué)原則收集的語言文本或話語片斷而建立的電子資料庫。本文所述漢語中介語料庫是基于語言學(xué)中中介語理論設(shè)計(jì)與實(shí)施的。中介語是心理語言學(xué)中第二語言習(xí)得的一種研究模
2、式,其將語言學(xué)習(xí)者置于觀察中心,去研究他們?nèi)绾斡幸庾R地向目的語的正確形式遷移的各種動(dòng)態(tài)表現(xiàn)。中介語理論自20世紀(jì)60年代末出現(xiàn)并發(fā)展至今,雖然時(shí)間并不長,但越來越受到語言學(xué)家以及一線教師的關(guān)注。無論是進(jìn)行中介語研究還是使用中介語理論進(jìn)行第二語言教學(xué)都需要收集分析大量的語料,因而通過信息化手段收集和整理語料變得十分迫切。在對外漢語教學(xué)中,通過建設(shè)和使用母語非漢語學(xué)習(xí)者的漢語中介語語料數(shù)據(jù)庫,可以收集不同背景和不同學(xué)習(xí)階段外國學(xué)生及少數(shù)民族學(xué)生的漢語書面語和用文字轉(zhuǎn)寫的口語語料,并對語料屬性、詞匯、語法等單位進(jìn)行
3、計(jì)算機(jī)處理,以實(shí)現(xiàn)對各種條件和要求下的語料數(shù)據(jù)進(jìn)行便捷的機(jī)器檢索和提取,可以為研究母語非漢語學(xué)生學(xué)習(xí)和習(xí)得漢語的規(guī)律提供大量的各種單項(xiàng)的或綜合的資料和信息。因此,我們提出了建設(shè)漢語中介語語料庫的課題,由于語料庫建設(shè)是一項(xiàng)浩大的工程,限于人力物力條件,本文討論的是中小規(guī)模的語料庫。一、需求分析和框架設(shè)計(jì)語料庫建設(shè)不能盲目進(jìn)行,首先要進(jìn)行調(diào)研,對語料庫的應(yīng)用需求進(jìn)行分析。半自動(dòng)化的語料庫構(gòu)建是目前語料庫建設(shè)的主流技術(shù),目的是在確保語料庫質(zhì)量的前提下,減少人工參與的比例,增加自動(dòng)化程度,目標(biāo)是在較短時(shí)間內(nèi)建設(shè)一個(gè)有
4、一定規(guī)模,質(zhì)量可靠、可擴(kuò)充、成本低,能夠全面、細(xì)致地記錄母語非漢語學(xué)習(xí)者在漢語學(xué)習(xí)過程中的語言表征和研究他們漢語習(xí)得過程的語料庫。依照軟件工程的方法,建立數(shù)據(jù)庫首先需要進(jìn)行需求分析,在需求分析過程中要注意漢語中介語語料庫主要是服務(wù)于對外漢語教學(xué)的一線教師,以及輔助母語非漢語學(xué)生自學(xué),因此主要注重以上二類服務(wù)對象的應(yīng)用需求,確保建成的語料庫能夠?qū)Φ诙Z言教學(xué)、研究以及教材的編寫提供持續(xù)支持?;谝陨弦?,在對中介語語料庫的建設(shè)思路及框架做了總體考慮,基本歸納為以下三個(gè)方面:1、中介語語料庫為專門用途語料庫,主要
5、目的為研究母語非漢語的學(xué)生在學(xué)習(xí)漢語過程中的中介語現(xiàn)象而設(shè)計(jì)制作的。2、中介語現(xiàn)象存在于母語非漢語的學(xué)生在學(xué)習(xí)漢語過程中的書面語料及口語語料中,由于口語語料的收集、分析和標(biāo)注都較為困難,因此在建庫的第一階段只考慮收錄書面語料,這有利于語料庫的快速建設(shè)與使用。3、語料標(biāo)注的加工標(biāo)準(zhǔn)使用中科院計(jì)算所漢語詞性標(biāo)記集V3.0。二、語料收集與加工收集和加工語料是最為重要的一項(xiàng)工作,要在語料庫使用過程中不斷收集、加工并添加到語料庫內(nèi),而且需要在整個(gè)語料庫生存周期中都要持續(xù)不斷的進(jìn)行此項(xiàng)工作。本語料庫中的語料基本上來源于云
6、南幾所高校的外國留學(xué)生在日常學(xué)習(xí)和生活過程中的作業(yè)、寫作、試卷等,目前收集的都是書面文字,待日后語料庫進(jìn)行二期建設(shè)時(shí)也可以考慮擴(kuò)充收集語音錄制的口語語料。最初獲得的未經(jīng)進(jìn)一步加工處理的語料一般稱為生語料,要將生語料轉(zhuǎn)變?yōu)檎Z料庫內(nèi)能夠使用的熟語料還需要經(jīng)過錄入、斷句、分詞、詞性標(biāo)注等工作。語料加工的工作量是相當(dāng)大的,如果完全人工完成的話,雖然質(zhì)量能夠得到保證,但效率太低,很難保證長期對數(shù)據(jù)的更新和維護(hù)。另外,由于中介語本身是留學(xué)生在學(xué)習(xí)第二語言過程中向正確的語言系統(tǒng)遷移的中間狀態(tài),所以中介語語料存在大量偏誤,使
7、用計(jì)算機(jī)進(jìn)行自動(dòng)加工獲得的語料質(zhì)量也較差。為得到較高質(zhì)量的熟語料,同時(shí)又需要盡量減少人力成本,因此在語料加工環(huán)節(jié)我們采用了人工與計(jì)算機(jī)自動(dòng)處理相結(jié)合的方式。具體操作上是先使用中科院計(jì)算所研發(fā)的漢語詞法分析軟件ICTCLAS進(jìn)行初步加工,再由人工方式對該軟件的分析結(jié)果進(jìn)行校對和修正,最后輸入語料庫存儲,這后兩個(gè)步驟是通過我們自己編寫的軟件來實(shí)現(xiàn)的。三、數(shù)據(jù)庫的設(shè)計(jì)思路依據(jù)需求分析的結(jié)果,首先轉(zhuǎn)換為不依賴任何具體機(jī)器的信息結(jié)構(gòu),即反映用戶觀點(diǎn)的概念模型,這是整個(gè)數(shù)據(jù)庫設(shè)計(jì)的關(guān)鍵。一般語言的基本構(gòu)成要素是詞,由詞構(gòu)
8、成句,再由句構(gòu)成篇章,但漢語的最小構(gòu)成元素卻是漢字,因此設(shè)計(jì)語料庫結(jié)構(gòu)組成時(shí)需要將字、詞、句和篇章都考慮到。另外,語料庫數(shù)據(jù)的最大特點(diǎn)就是“真實(shí)”,也就是說需要原樣保存語料信息,包括語料中的大量偏誤,這也是需要考慮的關(guān)鍵問題。依據(jù)漢語構(gòu)成特點(diǎn)及中介語語料庫的需求,使用E-R概念模型設(shè)計(jì)方法,得到語料庫概念模型如下:漢字構(gòu)成標(biāo)準(zhǔn)詞構(gòu)成偏誤詞正誤關(guān)聯(lián)語料句構(gòu)成構(gòu)成構(gòu)成語料篇章作者撰寫圖1 語料數(shù)據(jù)庫概念