資源描述:
《dirichlet過程及其在自然語言處理中的應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第23卷第5期中文信息學(xué)報Vo1.23,No.52009年9月JOURNALOFCHINESEINFORMATIONPROCESSINGSep.,2009文章編號:1O03—0077(2OO9)O5一O025一O8Dirichlet過程及其在自然語言處理中的應(yīng)用徐謙,周俊生,陳家駿(1.南京大學(xué)計算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇南京21O093;2.南京師范大學(xué)計算機(jī)科學(xué)系,江蘇南京21。O97)摘要:D
2、richlet過程是一種典型的變參數(shù)貝葉斯模型,其優(yōu)點(diǎn)是參數(shù)的個數(shù)和性質(zhì)靈活可變,可通過模型和數(shù)據(jù)來自主地計算,近年來它已成為機(jī)
3、器學(xué)習(xí)和自然語言處理研究領(lǐng)域中的一個研究熱點(diǎn)。該文較為系統(tǒng)的介紹了Dirich1et過程的產(chǎn)生、發(fā)展,并重點(diǎn)介紹了其模型計算,同時結(jié)合自然語言處理中的具體應(yīng)用問題進(jìn)行了詳細(xì)分析。最后討論了D
4、richlet過程未來的研究方向和發(fā)展趨勢。關(guān)鍵詞:計算機(jī)應(yīng)用;中文信息處理;變參數(shù)貝葉斯模型;D_richlet過程;Dirjchlet過程混合模型;馬爾可夫鏈蒙特卡羅中圖分類號:TP391文獻(xiàn)標(biāo)識碼:ADirichletPrOcessandItsApplicatiOnsinNaturalLanguagePrOcessingXUQian,ZHO
5、UJunsheng,CHENJiajun(1.StateKeyIaboratoryforNovelSoftwareTechnology,NanjingUniversity,Nanjing,Jiangsu21OO93,China;2.DepartmentofComputerScience,NanjingNormal,University,NanjingJiangsu,21OO97,China)Abstract:Dirich1etprocessisawe1卜knownnonparametricBayesianmodel,withtheat
6、tractivepropertyofaflex.blenumberofcomponentsdeterminedbythemodelandthedata.TheDirich1etprocessisanactiveareaofresearchbothwithinmachine1earningandinthenatura1languageprocessingcommunity.Thispaperintroducestheoriginandde—velopmentofDirich1etprocess,andthemethodsformodel
7、ca1culating.Thispaperalsodemonstrateshowtousethismodeltoso1venaturallanguageprocessingtask.Intheend,thefutureresearchanddevelopmenttrendofDirichletprocessisdiscussed.Keyw0rds:computerapphcationg;Chineseinformationprocessing;nonparametricBayesianmodel;Dirichletprocess;Di
8、rich1etprocessmixturemode1;MarkovchainMonteCar1o未必是一定合適的。例如,在很多情況下我們并不引言能事先確定似然函數(shù)的數(shù)學(xué)形式,這樣建立一個具有固定參數(shù)集合的模型幾乎是不現(xiàn)實(shí)的。如果為似貝葉斯數(shù)據(jù)分析是統(tǒng)計學(xué)習(xí)中的一個重要分然函數(shù)指定了一個錯誤的數(shù)學(xué)形式,在此基礎(chǔ)上的支],常用于對滿足某種分布的觀察數(shù)據(jù)進(jìn)行建模,參數(shù)估計則會完全偏離實(shí)際的情形。為克服傳統(tǒng)參它的顯著優(yōu)點(diǎn)是可以直接使用概率來量化問題推理數(shù)模型的不足與局限性,一種變參數(shù)貝葉斯模型中的不確定性,因而具有廣泛的應(yīng)用性。然而傳統(tǒng)(No
9、nparametricBayesMode1)近些年來被提出j,的參數(shù)貝葉斯模型強(qiáng)烈地依賴于模型的參數(shù)假設(shè),它能夠直接從數(shù)據(jù)中學(xué)習(xí)概率分布等目標(biāo)函數(shù)。變而人工選擇參數(shù)是件很困難的事情,這種參數(shù)假設(shè)參數(shù)貝葉斯模型是一種無需進(jìn)行參數(shù)假設(shè)的概率模收稿日期:2O08一lO一13定稿日期:20Og—O2—24基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目資助(6O673o43);國家863高科技項(xiàng)目(2O06AAO1O1o9);江蘇省高校自然科學(xué)基金資助(O7KJB52[)()57)作者簡介:徐謙(1983),男,碩士生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、統(tǒng)計學(xué)習(xí);周
10、俊生(1972一),男,博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器學(xué)習(xí)和信息抽取;陳家駿(1963),男,教授,博導(dǎo),主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯和軟件工程。26中文信息學(xué)報型,因而具有很強(qiáng)的靈活性,能適應(yīng)于