資源描述:
《漢語(yǔ)組塊識(shí)別.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、第25卷第2期東北大學(xué)學(xué)報(bào)(自然科學(xué)版)VoI.25,No.22004年2月JournaIofNortheasternUniversit(yNaturaIScience)Feb.2004=============================================================文章編號(hào):1005-302(62004)02-0114-04漢語(yǔ)組塊識(shí)別李珩,譚詠梅,朱靖波,姚天順(東北大學(xué)信息科學(xué)與工程學(xué)院,遼寧沈陽(yáng)110004)摘要:提出一種基于增益的隱馬爾科夫模型(transductiveHMM)的方法,用于漢語(yǔ)組塊(ChineseChunk)識(shí)別的研究·該方法
2、借助幾個(gè)轉(zhuǎn)換函數(shù),導(dǎo)入各種上下文信息用于HMM的訓(xùn)練,避免對(duì)HMM訓(xùn)練和標(biāo)注過(guò)程修改的同時(shí),構(gòu)造了更為準(zhǔn)確的模型,并在此基礎(chǔ)上,將其中兩個(gè)較好的模型融合為一個(gè)更好的模型·實(shí)驗(yàn)結(jié)果顯示,該方法在漢語(yǔ)組塊識(shí)別方面是有效的,在哈爾濱工業(yè)大學(xué)樹庫(kù)語(yǔ)料測(cè)試的結(jié)果是F=82.38%·關(guān)鍵詞:漢語(yǔ)組塊;識(shí)別;隱馬爾科夫模型;增益的隱馬爾科夫模型;模型訓(xùn)練;轉(zhuǎn)換函數(shù)中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:A文本組塊識(shí)別作為句法分析的預(yù)處理階段,1增益的隱馬爾科夫模型通過(guò)將文本劃分成一組互不重疊的片斷,來(lái)達(dá)到(TransductiveHMM)降低句法分析的難度,這些片斷是非遞歸的,即片斷不能嵌套,這些片斷定義為
3、Chunk[1]所謂的隱馬爾科夫模型是一個(gè)四元組,〈S1,·請(qǐng)看一個(gè)文本組塊的例子:S,W,E〉,S16S是初始狀態(tài),S={S1,S2,?,S!}[PPUnder][NPtheexistingcontract],[NP是狀態(tài)集,也稱為隱藏層,W={w1,w2,?,ww}RockweII][VPsaid],[NPit][VPhasaIready為輸出符號(hào)表,稱為觀察層·deIivered][NP793][PPof][theshipsets][PPto]E為狀態(tài)轉(zhuǎn)移函數(shù){pS,t},S,t6S,滿足[NPBoeing]·ZpS,t=1,VS6S·當(dāng)然,也可以通過(guò)為Chunk加標(biāo)記來(lái)表示文t6S[
4、2]另外還有兩個(gè)概率函數(shù)·狀態(tài)概率函數(shù):":S本組塊·采用I0B2的標(biāo)注集合,該標(biāo)注集合包含3種類型的標(biāo)記:B-X表示Chunk類型為X,并。[0,1],滿足Z"(S)=1;S6S且是該Chunk的起始詞,I-X表示Chunk類型為輸出符號(hào)函數(shù)概率函數(shù){JS:W。[0,1]},S6X,并且是該Chunk的非起始詞,0表示不在任何S,滿足ZJ(Sw)=1,VS6S·Chunk內(nèi)的詞·于是,上述的例子也可以表示如w6W下:!"!基于#$$的標(biāo)注Under/B-PPthe/B-NPexisting/I-NPcontract/令0和I分別代表輸出序列和輸入序列,則I-NP,/0RockweII/B-
5、NPsaid/B-VP,/0it/B-NP標(biāo)注問(wèn)題可視為計(jì)算以下條件概率的極大值:^has/B-VPaIready/I-VPdeIivered/I-VP793/B-NP0=argmaxP(0I)=0of/B-PPthe/B-NPshipsets/I-NPto/B-PPBoeing/P(II0)P(0)argmax(1)B-NP./00P(I)·這樣,文本組塊識(shí)別過(guò)程也可以看成對(duì)文本式中,P(0II)是已知輸入序列I的情況下,出現(xiàn)進(jìn)行Chunk標(biāo)注過(guò)程·目前,應(yīng)用于文本組塊的輸出序列0的條件概率·式中符號(hào)argmax表示0方法包括,基于轉(zhuǎn)換的學(xué)習(xí)[3],基于記憶的學(xué)通過(guò)考察不同的候選輸出序列0
6、,來(lái)尋找使條件習(xí)[4],隱馬爾科夫模型[5~7],最大熵模型[8],支持概率取最大值的那個(gè)輸出序列0^·向量機(jī)[9]等·考慮到分母P(I)對(duì)給定的I是一個(gè)常數(shù),收稿日期:2003-06-02基金項(xiàng)目:國(guó)家自然科學(xué)基金和微軟亞洲研究院聯(lián)合資助項(xiàng)目(60203019)·作者簡(jiǎn)介:李珩(1975-),男,遼寧沈陽(yáng)人,東北大學(xué)博士研究生;姚天順(1934-),男,江蘇揚(yáng)州人,東北大學(xué)教授,博士生導(dǎo)師·第2期李珩等:漢語(yǔ)組塊識(shí)別115不影響極大值的計(jì)算,可以從公式中刪除·接著根{(wi-pOSi,pOSi-ci)wi"Wt;據(jù)二階馬爾科夫假設(shè)(SecondorderMarkov(pOSi,pOSi-c
7、i)wi#Wt·assumption),式(1)可以轉(zhuǎn)成式(2)其中,wt集合的選取將在下節(jié)論述(見2.2)·argmax!p(iiOi)p(OiOi-1,Oi-2)·(2)于是,將上述幾個(gè)轉(zhuǎn)換函數(shù)代入到式(2)中,就得到0i:1,?,I據(jù)文獻(xiàn)[10]報(bào)道,上述公式成功應(yīng)用到詞性標(biāo)注了幾個(gè)增益的隱馬爾科夫模型,分別是:模型1:中,標(biāo)注準(zhǔn)確率達(dá)到了96%左右·文本組塊識(shí)別過(guò)程也可以看成是Chunk標(biāo)注過(guò)程,這樣