資源描述:
《用字母異化和數(shù)字異化創(chuàng)建漢字信息屬性》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、用字母異化和數(shù)字異化創(chuàng)建漢字信息屬性高國(guó)鷲前言現(xiàn)代漢語(yǔ)詞典把“相似或相同的事物逐漸變得不相似或不相同”稱(chēng)作異化,在中國(guó)社會(huì)發(fā)展中,漢字形成與圖畫(huà)異化有著密切關(guān)系,在漢字演化過(guò)程中,異化亦起到推動(dòng)作用,進(jìn)入信息時(shí)代,用異化創(chuàng)建漢字信息屬性,不斷豐富和完善漢字屬性庫(kù),對(duì)中文信息處理技術(shù)持續(xù)發(fā)展具有重要意義?!娟P(guān)鍵詞】異化字母異化數(shù)字異化漢字信息屬性中文信息處理一用字母異化創(chuàng)建漢字信息屬性1、字母異化與《漢語(yǔ)拼音方案》漢字和字母都有音,漢字音和字母音之間是沒(méi)有淵源關(guān)系的,但拉丁字母脫離原本構(gòu)詞(表音)功能,用字母組合成《漢
2、語(yǔ)拼音方案》為漢字注音,這就是字母異化。漢字采用拉丁字母注音是一種近似關(guān)系,最初用注音字母標(biāo)注,到1982年用國(guó)際音標(biāo)標(biāo)注。在漢字信息屬性庫(kù)中,漢語(yǔ)拼音成為字音的標(biāo)準(zhǔn)拼寫(xiě)形式,和音序的標(biāo)準(zhǔn)表達(dá)形式,在中文信息處理中,有95%以上的人把漢語(yǔ)拼音作為首選方法,漢語(yǔ)拼音成為中國(guó)文化走向世界的橋梁,周有光先生在紀(jì)念《漢語(yǔ)拼音方案》公布45周年發(fā)表文章感慨地說(shuō):“中國(guó)的漢字和羅馬的字母,東西十萬(wàn)里,上下兩千年,風(fēng)馬牛不相及也。想不到漢字跟字母終于締結(jié)姻緣,兩相偎依?!?、字母異化與《漢字拼形方案》漢字和字母都有形,漢字形和字母
3、形之間也是沒(méi)有淵源關(guān)系的,那么拉丁字母能否脫離原本構(gòu)詞(表形)功能,用字母組合為漢字標(biāo)形呢?根據(jù)漢字能拆能合特點(diǎn),通過(guò)字母異化作用,拉丁字母也是可以為漢字標(biāo)形的,最早采用這種方法的是上世紀(jì)八十年代《表形碼》漢字輸入技術(shù)。字母有兩個(gè)特性,一是整體具有固定的排列順序,二是個(gè)體具有固定的形體特征,在這兩個(gè)特性中,前者是隱性的,后者是顯性的。漢字輸入法編碼包括兩個(gè)步驟,一是要把漢字庫(kù)的字用某種漢字構(gòu)件(單筆畫(huà)或多筆畫(huà)結(jié)構(gòu))組合表示,二是用字母(或其它符號(hào))標(biāo)注這些漢字構(gòu)件形成代碼,這樣才能通過(guò)計(jì)算機(jī)鍵入這些代碼達(dá)到輸入漢字目
4、的。如果把英文字母的兩個(gè)特性都用于輸入法編碼的兩個(gè)步驟,那么英文字母第一個(gè)特性對(duì)應(yīng)輸入法編碼的第一個(gè)步驟,即用于制定編碼規(guī)則并確定漢字構(gòu)件,英文字母第二個(gè)特性對(duì)應(yīng)輸入法編碼的第二個(gè)步驟,即用于標(biāo)注漢字構(gòu)件形成代碼,以上這兩個(gè)步驟是相輔相成的。《表形碼》只采用了字母的第二個(gè)特性編碼,所以對(duì)很多構(gòu)件的標(biāo)注牽強(qiáng)附會(huì),沒(méi)有達(dá)到預(yù)期效果,但卻開(kāi)辟了輸入法編碼的一個(gè)分支。《漢字拼形方案》是在表形碼基礎(chǔ)上發(fā)展起來(lái)的,采用字母的兩個(gè)特性編碼:利用字母整體具有的序列特性來(lái)協(xié)調(diào)編碼中產(chǎn)生的歧義性問(wèn)題并確定了漢字構(gòu)件,和利用字母?jìng)€(gè)體具有的
5、形體特征來(lái)標(biāo)注漢字構(gòu)件并形成了代碼,這就使輸入法變得簡(jiǎn)單起來(lái)了,該編碼方案與傳統(tǒng)編碼方案區(qū)別見(jiàn)表1:漢字拼形輸入法與傳統(tǒng)輸入法編碼方案對(duì)比表1序號(hào)內(nèi)容傳統(tǒng)輸入法漢字拼形輸入法1方法整字拆分筆畫(huà)組合2依據(jù)主要字源主要筆順規(guī)則表63漢字構(gòu)件部件、含漢字信息形符、含字母信息4數(shù)量和大小506個(gè)部件平均筆畫(huà)數(shù)4.5249個(gè)形符平均筆畫(huà)數(shù)2.85信息量非全息碼(小于或大于漢字筆畫(huà)數(shù))全息碼(等于漢字筆畫(huà)數(shù))6碼長(zhǎng)短碼、等長(zhǎng)碼(通常不超過(guò)4鍵)長(zhǎng)碼、不等長(zhǎng)碼(最長(zhǎng)可達(dá)12鍵以上)《漢字拼形方案》(GB2312-80)總共設(shè)249
6、個(gè)漢字形符,其拼寫(xiě)形式(代碼)見(jiàn)表2:《漢字拼形方案》(GB2312-80)重碼(含構(gòu)件字)總數(shù)為681個(gè),占漢字總數(shù)的10.1%,見(jiàn)表3:漢字拼形輸入法(GB2312-80)重碼統(tǒng)計(jì)表表3重碼數(shù)組數(shù)漢字個(gè)數(shù)漢字累計(jì)個(gè)數(shù)漢字累計(jì)%重碼數(shù)組數(shù)漢字個(gè)數(shù)漢字累計(jì)個(gè)數(shù)漢字累計(jì)%不重碼字60826082608289.9五重碼字315674299.7二重碼字246492657497.2六重碼字16674899.8三重碼字3193666798.6七重碼字17675599.9四重碼字1560672799.5八重碼字186763100
7、.06《漢字拼形方案》(GB2312-80)碼長(zhǎng)分布曲線見(jiàn)圖1:碼長(zhǎng)分布曲線是漢字輸入法特性曲線,長(zhǎng)期以來(lái)人們疏于對(duì)碼長(zhǎng)分布曲線的研究,是因?yàn)閹缀跛休斎敕ǘ际堑却a長(zhǎng),碼長(zhǎng)分布曲線是直線,研究?jī)r(jià)值不大,漢字拼形輸入法是不等碼長(zhǎng),碼長(zhǎng)分布曲線是曲線,調(diào)整碼長(zhǎng)分布曲線可起到優(yōu)化方案作用,而對(duì)碼長(zhǎng)分布曲線進(jìn)行系統(tǒng)分析研究,可探索漢字輸入(包括用筆書(shū)寫(xiě)和計(jì)算機(jī)鍵盤(pán)輸入)演化規(guī)律,為未來(lái)漢字簡(jiǎn)化提供理論依據(jù)。圖1橫坐標(biāo)軸代表碼長(zhǎng),縱坐標(biāo)軸代表漢字?jǐn)?shù)量,漢字采用GB2312-80字符集(含6763字),作為對(duì)比,曲線1是用筆書(shū)寫(xiě)
8、錄入方式的碼長(zhǎng)分布曲線,相當(dāng)于計(jì)算機(jī)按筆畫(huà)輸入漢字,特點(diǎn)是每次錄入(書(shū)寫(xiě))漢字的1個(gè)筆畫(huà);曲線2是計(jì)算機(jī)漢字拼形輸入法的碼長(zhǎng)分布曲線,特點(diǎn)是每次錄入漢字的1個(gè)形符(多筆畫(huà)),因此曲線2是曲線1在信息時(shí)代的演化產(chǎn)物,下面簡(jiǎn)要介紹這兩種碼長(zhǎng)分布曲線:曲線1碼長(zhǎng)分布離散度大,曲線平緩,碼長(zhǎng)最短為1筆畫(huà)字(有5個(gè)),最長(zhǎng)為30筆畫(huà)字(有1個(gè)),漢字集中