資源描述:
《語料標(biāo)注的速成:自己做個(gè)半自動(dòng)標(biāo)注器.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、《語料標(biāo)注的速成教程:自己做個(gè)半自動(dòng)標(biāo)注器》作者:李亮(廣東外語外貿(mào)大學(xué)詞典學(xué)中心)2012年8月17日Email:492130980@qq.com【步驟1】語料經(jīng)過標(biāo)注,就變得很有深度,能提供前所未有的信息,就從“生語料”變成了“熟語料”,假設(shè)我們對(duì)good這個(gè)形容詞標(biāo)注一下詞性,就有下面的3種主要做法。國內(nèi)的中文語料標(biāo)注主要是斜線型,某些經(jīng)典的英語語料采用了下劃線型,而最新的主流是XML型;【步驟2】知識(shí)分子天天打交道的MicrosoftOfficeWord的功能遠(yuǎn)遠(yuǎn)超過普通人的想象,而當(dāng)代的定性標(biāo)注工具在語言
2、教學(xué)與研究中扮演著重要的角色,例如,語義韻研究、社會(huì)語言學(xué)、語言測(cè)試、詞典學(xué)、翻譯學(xué)、文化學(xué)、二語習(xí)得研究,往往需要對(duì)自然語料中的詞匯的語義呀,語用呀,進(jìn)行種種精細(xì)的評(píng)價(jià)或深入梳理,而我們?cè)谑褂脧?fù)雜而先進(jìn)的商業(yè)版的定性分析標(biāo)注工具之前,往往可以自己做個(gè)半自動(dòng)定性標(biāo)注工具來體驗(yàn)一下;【步驟3】從Word97到最新的Word2013,它們的一切操作都是基于VBA編程語言的,VisualBasicforApplication這門語言是BASIC語言的精簡(jiǎn)版,掌握一些淺顯的代碼編寫往往能釋放巨大的Office在語料加工與統(tǒng)
3、計(jì)中的能量;我們點(diǎn)“工具”的“宏”的“VisualBasic編輯器”就進(jìn)入當(dāng)前這個(gè)Word文件的后臺(tái)了;【步驟4】VBA編程用到的都是最常見的英語單詞,什么if,什么loop之類的;在當(dāng)前這個(gè)doc文件的后臺(tái)寫的代碼就保存在它的本體,你帶到其他電腦上也依然含有這些程序代碼的;【步驟5】雙擊左側(cè)的“ThisDocument”,我們就開始寫非常實(shí)用的幾句VBA代碼了;【步驟6】雙擊“ThisDocument”就看到右側(cè)區(qū)域出現(xiàn)了“空白的工作區(qū)”;【步驟7】我們寫出4行代碼就是第一份作品或第一個(gè)軟件了!sub就是subr
4、outine或subprocedure,在Office中相當(dāng)于一個(gè)獨(dú)立運(yùn)行的小軟件呢;第一行的verb這個(gè)詞表示“軟件名稱”,后面的“()”是左圓括號(hào)和右圓括號(hào),selection表示我們要標(biāo)注的一個(gè)片斷且已經(jīng)被我們用鼠標(biāo)選中了,InsertBefore和InsertAfter這是兩個(gè)動(dòng)作,顯而易見,就是在被選中的單詞前后“新增”;【步驟8】寫好代碼,就要保存一下……【步驟9】保存好,就點(diǎn)右上角的“小黑叉”,退出“代碼編輯狀態(tài)”;【步驟10】回到前臺(tái),發(fā)現(xiàn)“一切照舊”。我們就需要把剛才的小軟件變成一個(gè)小按鈕,于是我
5、們?cè)诓藛螜诘挠覀?cè)空白處點(diǎn)右鍵;【步驟11】彈出這么一個(gè)菜單,我們順著往下走……【步驟12】走到最低下,是“自定義”,點(diǎn)一下……【步驟13】彈出自定義對(duì)話框,我們看到右側(cè)列表的頂部就是剛才的“verb”小程序;如果你看不到就點(diǎn)一下最低下的“保存于”,點(diǎn)這里的“文檔1”,再看上面是不是能看到“verb小程序”了?【步驟14】現(xiàn)在,用鼠標(biāo)左鍵點(diǎn)住“Project.ThisDocument.verb”不放,向上拖動(dòng)到“幫助”右側(cè)的空白處,再放開鼠標(biāo)左鍵;【步驟15】這時(shí),我們對(duì)這新增的玩意兒點(diǎn)右鍵,看到一系列的菜單;【步驟
6、16】我們進(jìn)行重新命名,改為簡(jiǎn)潔的“verb”……【步驟17】改好了,就用鼠標(biāo)在菜單的外側(cè)的任意位置點(diǎn)一下左鍵;【步驟18】至此,我們掌握了把自己做的一個(gè)“宏代碼”制作為一個(gè)“宏按鈕”的技能,恭喜你!你是不是第一次親自制作“菜單性質(zhì)的按鈕”呀?【步驟19】如果你繼續(xù)制作更多的宏代碼就能組成頗有規(guī)模的宏菜單呢!好,點(diǎn)右下角的“關(guān)閉”按鈕,回到Word的工作區(qū)……【步驟20】現(xiàn)在用你鼠標(biāo)選中一個(gè)英語單詞……【步驟21】移動(dòng)鼠標(biāo)到你新制作的按鈕,點(diǎn)一下……【步驟22】見證奇跡的時(shí)候到了!在“help”的前后出現(xiàn)了“XML
7、標(biāo)簽”,哇【步驟23】太激動(dòng)了!那,我們繼續(xù)制作更多的菜單來滿足你研究的要求吧【步驟24】動(dòng)詞之外,形容詞挺重要的,做個(gè)adj的XML型標(biāo)簽吧;你是研究語義韻的?那做個(gè)“消極韻標(biāo)簽”。你是研究語用學(xué)?那做個(gè)“禮貌標(biāo)簽”,哈哈【步驟25】不過,我們還是先繼續(xù)做好POS標(biāo)簽吧,還有adverb,noun,prep,……,如法炮制!【步驟26】在后臺(tái)制作更多的“宏程序”,回到前臺(tái)的“宏名稱的列表”就能看到更多的宏名稱,我們都用鼠標(biāo)左鍵進(jìn)行“拖拽”,到Word主菜單的右側(cè)的空白處……【步驟27】重新回來,打個(gè)例句,選中第一
8、個(gè)詞,它是個(gè)形容詞,測(cè)試下啦,我點(diǎn)“adj”按鈕……【步驟28】哈哈,原來編編程,做做按鈕,是如此簡(jiǎn)單……我們初次踏上了Office自動(dòng)化與語料庫語言學(xué)結(jié)合的道路了!【步驟29】一個(gè)接一個(gè),速度挺快呢……【步驟30】幾乎要全部標(biāo)注完畢一個(gè)句子了……【步驟31】選中最后一個(gè)詞,點(diǎn)“adverb”,因?yàn)閝uickly就是副詞嘛,這套方法也能用來進(jìn)行中文,日語,法