資源描述:
《最大熵模型and自然語(yǔ)言處理》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、自然語(yǔ)言處理的最大熵模型常寶寶北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所,100871(一)日常生活中,很多事情的發(fā)生表現(xiàn)出一定的隨機(jī)性,試驗(yàn)的結(jié)果往往是不確定的,而且也不知道這個(gè)隨機(jī)現(xiàn)象所服從的概率分布,所有的只有一些試驗(yàn)樣本或樣本特征,統(tǒng)計(jì)學(xué)常常關(guān)心的一個(gè)問(wèn)題,在這種情況下如何對(duì)分布作出一個(gè)合理的推斷?根據(jù)樣本信息對(duì)某個(gè)未知分布作出推斷的方法,最大熵的方法就是這樣一個(gè)方法。最大熵原理是在1957年由E.T.Jaynes提出的,其主要思想是,在只掌握關(guān)于未知分布的部分知識(shí)時(shí),應(yīng)該選取符合這些知識(shí)但熵值最大的概率分布。因?yàn)樵谶@種情況下,符合已知知識(shí)的概率分布可能不止一個(gè)。我們知道,熵
2、定義的實(shí)際上是一個(gè)隨機(jī)變量的不確定性,熵最大的時(shí)侯,說(shuō)明隨機(jī)變量最不確定,換句話(huà)說(shuō),也就是隨機(jī)變量最隨機(jī),對(duì)其行為做準(zhǔn)確預(yù)測(cè)最困難。從這個(gè)意義上講,那么最大熵原理的實(shí)質(zhì)就是,在已知部分知識(shí)的前提下,關(guān)于未知分布最合理的推斷就是符合已知知識(shí)最不確定或最隨機(jī)的推斷,這是我們可以作出的唯一不偏不倚的選擇,任何其它的選擇都意味著我們?cè)黾恿似渌募s束和假設(shè),這些約束和假設(shè)根據(jù)我們掌握的信息無(wú)法作出。看一個(gè)簡(jiǎn)單的例子:設(shè)a∈{x,y}且b∈{0,1},要推斷概率分布p(a,b),唯一所知道的信息是p(x,0)+p(y,0)=0.6,即:p(a,b)01x??y??0.61.0由
3、于約束條件很少,滿(mǎn)足條件的分布有無(wú)數(shù)多個(gè),例如下面的分布就是滿(mǎn)足已知條件的一個(gè)分布:p(a,b)01x0.50.1y0.10.30.61.0但按照最大熵原則,上述分布卻不是一個(gè)好的分布,因?yàn)檫@個(gè)分布的熵不是滿(mǎn)足條件的所有分布中熵最大的分布。按照最大熵的原則,應(yīng)該選擇的下面的分布:p(a,b)01x0.30.2y0.30.20.61.0因?yàn)?,最大熵原則要求,合理的分布應(yīng)該同時(shí)滿(mǎn)足要求:(1)p*=argmaxH(p)=argmax[?∑p(a,b)logp(a,b)]p∈Pp∈Pa∈{x,y},b∈{0,1}(2)p(x,0)+p(y,0)=0.6(3)p(x,0)+
4、p(x,1)+p(y,0)+p(y,1)=1上述例子比較簡(jiǎn)單,通過(guò)觀察就可以得到熵值最大的概率分布,即使不能觀察得到,也可以通過(guò)解析的方法得到??墒菍?duì)于很多復(fù)雜的問(wèn)題,往往不能用一個(gè)解析的辦法獲得。(二)自然語(yǔ)言處理中很多問(wèn)題都可以歸結(jié)為統(tǒng)計(jì)分類(lèi)問(wèn)題,很多機(jī)器學(xué)習(xí)方法在這里都能找到應(yīng)用,在自然語(yǔ)言處理中,統(tǒng)計(jì)分類(lèi)表現(xiàn)在要估計(jì)類(lèi)a和某上下文b共現(xiàn)的概率P(a,b),不同的問(wèn)題,類(lèi)a和上下文b的內(nèi)容和含義也不相同。在詞性標(biāo)注中是類(lèi)的含義是詞性標(biāo)注集中的詞類(lèi)標(biāo)記,而上下文指的是當(dāng)前被處理的詞前面一個(gè)詞及詞類(lèi),后面一個(gè)詞及詞類(lèi)或前后若干個(gè)詞和詞類(lèi)。通常上下文有時(shí)是詞,有時(shí)是
5、詞類(lèi)標(biāo)記,有時(shí)是歷史決策等等。大規(guī)模語(yǔ)料庫(kù)中通常包含a和b的共現(xiàn)信息,但b在語(yǔ)料庫(kù)中的出現(xiàn)常常是稀疏的,要對(duì)所有可能的(a,b)計(jì)算出可靠的P(a,b),語(yǔ)料庫(kù)規(guī)模往往總是不夠的。問(wèn)題是要發(fā)現(xiàn)一個(gè)方法,利用這個(gè)方法在數(shù)據(jù)稀疏的條件下可靠的估計(jì)P(a,b)。不同的方法可能采用不同的估計(jì)方法。最大熵的原則:將已知事實(shí)作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布。若用A表示所有類(lèi)的集合,B表示所有上下文的集合,那么正確的p應(yīng)滿(mǎn)足下面兩條:(1)可以使熵最大化的p。p?=argmaxH(p)p這里x=(a,b),a∈A,b∈B,ε=A×B(2)p要服從從樣本數(shù)
6、據(jù)中已知的統(tǒng)計(jì)證據(jù)?,F(xiàn)在的問(wèn)題是已知知識(shí)如何表示,語(yǔ)料庫(kù)中包含的各種知識(shí)應(yīng)如何在最大熵模型中得到體現(xiàn)?在最大熵模型中,通常采用特征的辦法來(lái)表示證據(jù),特征可定義為如下的二值函數(shù):f:ε→{0,1}若有k個(gè)特征,那么特征j對(duì)p的制約可以表示為:~Epfj=Epfj(1)其中1≤j≤k,Epfj表示在概率分布為p時(shí),特征fj的期望值。E~pfj表示特征fj的樣本期望值。所以有:Epfj=∑p(x)fj(x)x∈εE~pfj=∑~p(x)fj(x)x∈ε~()p(x在這里表示事件x在樣本數(shù)據(jù)中的概率)公式(1)的含義是在概率分布p的情況下,特征的期望值應(yīng)該和從樣本數(shù)據(jù)中得到
7、特征的樣本期望值一致。用P表示所有滿(mǎn)足特征約束條件的分布,根據(jù)最大熵原則,就是要在P中選擇一個(gè)能使熵取最大值的概率分布,這可以表示為:P={p
8、Epfj=E~pfj,1≤j≤k}*p=argmaxH(p)p∈P但滿(mǎn)足上述條件的概率分布是一個(gè)什么樣的分布呢?已經(jīng)證明滿(mǎn)足上述條件的概率分布p*具有如下的形式:k*fj(x)p(x)=π∏αj,0≤αj≤∞(2)j=1π是歸一常數(shù),αj是模型參數(shù),每一個(gè)特征fj對(duì)應(yīng)一個(gè)αj,αj可以被看作表示特征fj相對(duì)重要程度的權(quán)重。最大熵模型的優(yōu)點(diǎn)是:在建模時(shí),試驗(yàn)者只需要集中精力選擇特征,而不需要花費(fèi)精力考慮如何使用這些特征。而