漢語(yǔ)組塊識(shí)別.pdf

漢語(yǔ)組塊識(shí)別.pdf

ID:53909611

大?。?32.69 KB

頁(yè)數(shù):6頁(yè)

時(shí)間:2020-04-27

漢語(yǔ)組塊識(shí)別.pdf_第1頁(yè)
漢語(yǔ)組塊識(shí)別.pdf_第2頁(yè)
漢語(yǔ)組塊識(shí)別.pdf_第3頁(yè)
漢語(yǔ)組塊識(shí)別.pdf_第4頁(yè)
漢語(yǔ)組塊識(shí)別.pdf_第5頁(yè)
資源描述:

《漢語(yǔ)組塊識(shí)別.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、第25卷第2期東北大學(xué)學(xué)報(bào)(自然科學(xué)版)VoI.25,No.22004年2月JournaIofNortheasternUniversit(yNaturaIScience)Feb.2004=============================================================文章編號(hào):1005-302(62004)02-0114-04漢語(yǔ)組塊識(shí)別李珩,譚詠梅,朱靖波,姚天順(東北大學(xué)信息科學(xué)與工程學(xué)院,遼寧沈陽(yáng)110004)摘要:提出一種基于增益的隱馬爾科夫模型(transductiveHMM)的方法,用于漢語(yǔ)組塊(ChineseChunk)識(shí)別的研究·該方法

2、借助幾個(gè)轉(zhuǎn)換函數(shù),導(dǎo)入各種上下文信息用于HMM的訓(xùn)練,避免對(duì)HMM訓(xùn)練和標(biāo)注過(guò)程修改的同時(shí),構(gòu)造了更為準(zhǔn)確的模型,并在此基礎(chǔ)上,將其中兩個(gè)較好的模型融合為一個(gè)更好的模型·實(shí)驗(yàn)結(jié)果顯示,該方法在漢語(yǔ)組塊識(shí)別方面是有效的,在哈爾濱工業(yè)大學(xué)樹庫(kù)語(yǔ)料測(cè)試的結(jié)果是F=82.38%·關(guān)鍵詞:漢語(yǔ)組塊;識(shí)別;隱馬爾科夫模型;增益的隱馬爾科夫模型;模型訓(xùn)練;轉(zhuǎn)換函數(shù)中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:A文本組塊識(shí)別作為句法分析的預(yù)處理階段,1增益的隱馬爾科夫模型通過(guò)將文本劃分成一組互不重疊的片斷,來(lái)達(dá)到(TransductiveHMM)降低句法分析的難度,這些片斷是非遞歸的,即片斷不能嵌套,這些片斷定義為

3、Chunk[1]所謂的隱馬爾科夫模型是一個(gè)四元組,〈S1,·請(qǐng)看一個(gè)文本組塊的例子:S,W,E〉,S16S是初始狀態(tài),S={S1,S2,?,S!}[PPUnder][NPtheexistingcontract],[NP是狀態(tài)集,也稱為隱藏層,W={w1,w2,?,ww}RockweII][VPsaid],[NPit][VPhasaIready為輸出符號(hào)表,稱為觀察層·deIivered][NP793][PPof][theshipsets][PPto]E為狀態(tài)轉(zhuǎn)移函數(shù){pS,t},S,t6S,滿足[NPBoeing]·ZpS,t=1,VS6S·當(dāng)然,也可以通過(guò)為Chunk加標(biāo)記來(lái)表示文t6S[

4、2]另外還有兩個(gè)概率函數(shù)·狀態(tài)概率函數(shù):":S本組塊·采用I0B2的標(biāo)注集合,該標(biāo)注集合包含3種類型的標(biāo)記:B-X表示Chunk類型為X,并。[0,1],滿足Z"(S)=1;S6S且是該Chunk的起始詞,I-X表示Chunk類型為輸出符號(hào)函數(shù)概率函數(shù){JS:W。[0,1]},S6X,并且是該Chunk的非起始詞,0表示不在任何S,滿足ZJ(Sw)=1,VS6S·Chunk內(nèi)的詞·于是,上述的例子也可以表示如w6W下:!"!基于#$$的標(biāo)注Under/B-PPthe/B-NPexisting/I-NPcontract/令0和I分別代表輸出序列和輸入序列,則I-NP,/0RockweII/B-

5、NPsaid/B-VP,/0it/B-NP標(biāo)注問(wèn)題可視為計(jì)算以下條件概率的極大值:^has/B-VPaIready/I-VPdeIivered/I-VP793/B-NP0=argmaxP(0I)=0of/B-PPthe/B-NPshipsets/I-NPto/B-PPBoeing/P(II0)P(0)argmax(1)B-NP./00P(I)·這樣,文本組塊識(shí)別過(guò)程也可以看成對(duì)文本式中,P(0II)是已知輸入序列I的情況下,出現(xiàn)進(jìn)行Chunk標(biāo)注過(guò)程·目前,應(yīng)用于文本組塊的輸出序列0的條件概率·式中符號(hào)argmax表示0方法包括,基于轉(zhuǎn)換的學(xué)習(xí)[3],基于記憶的學(xué)通過(guò)考察不同的候選輸出序列0

6、,來(lái)尋找使條件習(xí)[4],隱馬爾科夫模型[5~7],最大熵模型[8],支持概率取最大值的那個(gè)輸出序列0^·向量機(jī)[9]等·考慮到分母P(I)對(duì)給定的I是一個(gè)常數(shù),收稿日期:2003-06-02基金項(xiàng)目:國(guó)家自然科學(xué)基金和微軟亞洲研究院聯(lián)合資助項(xiàng)目(60203019)·作者簡(jiǎn)介:李珩(1975-),男,遼寧沈陽(yáng)人,東北大學(xué)博士研究生;姚天順(1934-),男,江蘇揚(yáng)州人,東北大學(xué)教授,博士生導(dǎo)師·第2期李珩等:漢語(yǔ)組塊識(shí)別115不影響極大值的計(jì)算,可以從公式中刪除·接著根{(wi-pOSi,pOSi-ci)wi"Wt;據(jù)二階馬爾科夫假設(shè)(SecondorderMarkov(pOSi,pOSi-c

7、i)wi#Wt·assumption),式(1)可以轉(zhuǎn)成式(2)其中,wt集合的選取將在下節(jié)論述(見2.2)·argmax!p(iiOi)p(OiOi-1,Oi-2)·(2)于是,將上述幾個(gè)轉(zhuǎn)換函數(shù)代入到式(2)中,就得到0i:1,?,I據(jù)文獻(xiàn)[10]報(bào)道,上述公式成功應(yīng)用到詞性標(biāo)注了幾個(gè)增益的隱馬爾科夫模型,分別是:模型1:中,標(biāo)注準(zhǔn)確率達(dá)到了96%左右·文本組塊識(shí)別過(guò)程也可以看成是Chunk標(biāo)注過(guò)程,這樣

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。