資源描述:
《基于二元根詞相關(guān)性的三字格詞語(yǔ)知識(shí)挖掘研究-盛玉麒.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于二元根詞相關(guān)性的漢語(yǔ)三字格詞語(yǔ)知識(shí)挖掘研究*山東大學(xué)盛玉麒(*本文得到國(guó)家社科基金項(xiàng)目“基于語(yǔ)料庫(kù)的漢語(yǔ)根詞相關(guān)性句法模型研究”的經(jīng)費(fèi)資助)一、詞相關(guān)性1.相關(guān)性理論“相關(guān)性”通常指隨機(jī)事件之間的關(guān)系。在數(shù)理語(yǔ)言學(xué)領(lǐng)域常指兩個(gè)語(yǔ)言單位的關(guān)系程度。可以是字與字之間的相關(guān)性、也可以是詞與詞、短語(yǔ)與短語(yǔ)、句子與句子之間的關(guān)系。在計(jì)算語(yǔ)言學(xué)中,常用“共現(xiàn)”一詞表示兩個(gè)成分共同出現(xiàn)在一個(gè)語(yǔ)句中。相比之下,“共現(xiàn)”只是強(qiáng)調(diào)同時(shí)出現(xiàn),而“相關(guān)性”則明確度表達(dá)了“關(guān)系的程度”。統(tǒng)計(jì)學(xué)有“相關(guān)分析”法,專門研究隨機(jī)變量之間的相關(guān)性,包括偏相關(guān)、復(fù)相關(guān)、定序變量相關(guān)等
2、不同類型相關(guān)性的統(tǒng)計(jì)分析。本文所談“二元相關(guān)性”是指任意兩個(gè)詞之間的關(guān)系程度。可以把這種關(guān)系想象成詞的矩陣,縱橫分別按照自然數(shù)列排列全部詞,兩兩組合的節(jié)點(diǎn)數(shù)就是相關(guān)性組合的理論數(shù)值。假設(shè)有10000個(gè)詞,那么,相關(guān)性組合的理論數(shù)值就是10000*10000=1億個(gè)。但是實(shí)際應(yīng)用中絕不會(huì)有那么多。因?yàn)樵S多詞之間由于句法功能的差異以及應(yīng)用分布的關(guān)系,包括合理組合與非合理組合。例如下面的例子:李嘉誠(chéng)稱,“事實(shí)上,中國(guó)人有好人,也都有差的;外國(guó)亦都有好有差,國(guó)籍沒(méi)有特別的關(guān)系?!睕](méi)有分詞的情況下,可根據(jù)標(biāo)點(diǎn)符號(hào)分隔的兩個(gè)相鄰單位之間就存在相關(guān)性,“事實(shí)上,中國(guó)
3、人有好人”、“中國(guó)人有好人,也都有差的;”等等。分詞標(biāo)注詞性后,得到如下文本:李/nr嘉誠(chéng)/nr稱/v,/w“/w事實(shí)/n上/f,/w中國(guó)/ns人/n有/v好/a人/n,/w也/d都/d有/v差/a的/u;/w外國(guó)/n亦/d都/d有/v好/a有/v差/a,/w國(guó)籍/n沒(méi)有/d特別/a的/u關(guān)系/n。/w”/w其中“李/nr嘉誠(chéng)/nr稱/v,/w”算上標(biāo)點(diǎn)一共4個(gè)單位,其中的二元相關(guān)性組合就有“李/nr嘉誠(chéng)/nr”、“嘉誠(chéng)/nr稱/v”和“稱/v,/w”3組。顯然“李/nr嘉誠(chéng)/nr”和“嘉誠(chéng)/nr稱/v”具有合理性,而“稱/v,/w”就不具有合理性。根
4、據(jù)相關(guān)性的程度可大致分為“高、中、低、無(wú)”四種。相關(guān)性與結(jié)構(gòu)關(guān)系不同,結(jié)構(gòu)關(guān)系是具有內(nèi)在邏輯規(guī)定性的關(guān)系,例如主謂、述賓、偏正、述補(bǔ)等基本句法結(jié)構(gòu)關(guān)系。相關(guān)性是指“隨機(jī)變量”之間的關(guān)系,隨機(jī)變量是不確定性的量,并不能確定是否存在真正的邏輯關(guān)系,所以要通過(guò)統(tǒng)計(jì)分析來(lái)求證。2.相關(guān)性的獲得獲得相關(guān)性的途徑有兩條:一是從理論預(yù)設(shè)為主,將所有的詞建立二元搭配矩陣,然后逐一篩選排查;二是從抽樣語(yǔ)料中進(jìn)行統(tǒng)計(jì)分析,找出實(shí)際使用中存在的相關(guān)性組合。前一種方法具有“窮盡性”,但是工作量大,可控性不足,因?yàn)槿斯ずY選排查過(guò)程如何防止錯(cuò)漏是一個(gè)大問(wèn)題。判斷標(biāo)準(zhǔn)也不好掌握。因
5、為詞離開(kāi)具體的語(yǔ)境后,往往很難判斷其合理性。后一種方法往往受限于抽樣語(yǔ)料的規(guī)模。從理論上說(shuō),不管語(yǔ)料庫(kù)多大,都具有不完備性,因此一定會(huì)有遺漏。二者相比,后者具有現(xiàn)實(shí)可行性。本研究采用基于語(yǔ)料庫(kù)的統(tǒng)計(jì)分析方法進(jìn)行詞相關(guān)性的知識(shí)挖掘。3.相關(guān)性的意義用相關(guān)性來(lái)描述語(yǔ)言單位之間的關(guān)系具有統(tǒng)計(jì)學(xué)的意義?,F(xiàn)代漢語(yǔ)關(guān)于詞的定義中有“結(jié)構(gòu)穩(wěn)定性”、“歷史繼承性”、“社會(huì)通用性”等標(biāo)準(zhǔn)。其中的“結(jié)構(gòu)穩(wěn)定性”用相關(guān)性進(jìn)行描述就屬于“高相關(guān)性”。新詞語(yǔ)多屬尚未達(dá)到“穩(wěn)定性”的程度,可以用“中低穩(wěn)定性”加以描述。因此,在新詞語(yǔ)知識(shí)挖掘研究中,相關(guān)性研究就有了重要的意義。從詞
6、長(zhǎng)看,新詞語(yǔ)一般多為2——4個(gè)音節(jié),5音節(jié)以上的很少。其中,雙音節(jié)詞與雙音短語(yǔ)之間的區(qū)別難度最大。三字格中除了少數(shù)被收入辭典的慣用語(yǔ)等固定短語(yǔ)之外,多數(shù)為臨時(shí)短語(yǔ),真正的“三音節(jié)詞”并不多。四字格中除成語(yǔ)外,情況與三字格類似。固定短語(yǔ)一般都是從臨時(shí)短語(yǔ)發(fā)展來(lái)的,都經(jīng)過(guò)了“臨時(shí)短語(yǔ)”——“準(zhǔn)固定短語(yǔ)”的階段,因此,從3-4音節(jié)的相關(guān)性組合中挖掘“準(zhǔn)固定短語(yǔ)”應(yīng)是新詞語(yǔ)研究的一個(gè)重點(diǎn)。二、抽樣語(yǔ)料庫(kù)根據(jù)2003年1月分解放軍報(bào)電子版文本語(yǔ)料,通過(guò)word字?jǐn)?shù)統(tǒng)計(jì)結(jié)果為2128619個(gè)漢字,不計(jì)空格字符數(shù)為3119202個(gè)。采用中科院計(jì)算所自動(dòng)分詞軟件進(jìn)程分
7、詞和標(biāo)注詞性作為預(yù)處理。自動(dòng)分詞后得到830797詞次,統(tǒng)計(jì)結(jié)果得到詞種37065個(gè)。其中:?jiǎn)我粼~4702個(gè),累計(jì)使用次413186次;雙音詞24543個(gè),累計(jì)使用次380400次;三音詞4663個(gè),累計(jì)使用次27167次;四音詞2899個(gè),累計(jì)使用次9398次;五字以上詞258個(gè),累計(jì)使用次646次。列表如下:表1.抽樣語(yǔ)料庫(kù)詞頻統(tǒng)計(jì)結(jié)果詞長(zhǎng)詞種所占比例累計(jì)頻次所占比例單音詞470212.69%41318649.73%雙音詞2454366.22%38040045.79%三音詞466312.58%271673.27%四音詞28997.82%93981.
8、13%五字以上2580.70%6460.08%合計(jì)37065100.00%830797100.