dirichlet過程及其在自然語言處理中的應(yīng)用

dirichlet過程及其在自然語言處理中的應(yīng)用

ID:34441293

大?。?85.45 KB

頁數(shù):9頁

時間:2019-03-06

dirichlet過程及其在自然語言處理中的應(yīng)用_第1頁
dirichlet過程及其在自然語言處理中的應(yīng)用_第2頁
dirichlet過程及其在自然語言處理中的應(yīng)用_第3頁
dirichlet過程及其在自然語言處理中的應(yīng)用_第4頁
dirichlet過程及其在自然語言處理中的應(yīng)用_第5頁
資源描述:

《dirichlet過程及其在自然語言處理中的應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、第23卷第5期中文信息學(xué)報Vo1.23,No.52009年9月JOURNALOFCHINESEINFORMATIONPROCESSINGSep.,2009文章編號:1O03—0077(2OO9)O5一O025一O8Dirichlet過程及其在自然語言處理中的應(yīng)用徐謙,周俊生,陳家駿(1.南京大學(xué)計算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇南京21O093;2.南京師范大學(xué)計算機(jī)科學(xué)系,江蘇南京21。O97)摘要:D

2、richlet過程是一種典型的變參數(shù)貝葉斯模型,其優(yōu)點(diǎn)是參數(shù)的個數(shù)和性質(zhì)靈活可變,可通過模型和數(shù)據(jù)來自主地計算,近年來它已成為機(jī)

3、器學(xué)習(xí)和自然語言處理研究領(lǐng)域中的一個研究熱點(diǎn)。該文較為系統(tǒng)的介紹了Dirich1et過程的產(chǎn)生、發(fā)展,并重點(diǎn)介紹了其模型計算,同時結(jié)合自然語言處理中的具體應(yīng)用問題進(jìn)行了詳細(xì)分析。最后討論了D

4、richlet過程未來的研究方向和發(fā)展趨勢。關(guān)鍵詞:計算機(jī)應(yīng)用;中文信息處理;變參數(shù)貝葉斯模型;D_richlet過程;Dirjchlet過程混合模型;馬爾可夫鏈蒙特卡羅中圖分類號:TP391文獻(xiàn)標(biāo)識碼:ADirichletPrOcessandItsApplicatiOnsinNaturalLanguagePrOcessingXUQian,ZHO

5、UJunsheng,CHENJiajun(1.StateKeyIaboratoryforNovelSoftwareTechnology,NanjingUniversity,Nanjing,Jiangsu21OO93,China;2.DepartmentofComputerScience,NanjingNormal,University,NanjingJiangsu,21OO97,China)Abstract:Dirich1etprocessisawe1卜knownnonparametricBayesianmodel,withtheat

6、tractivepropertyofaflex.blenumberofcomponentsdeterminedbythemodelandthedata.TheDirich1etprocessisanactiveareaofresearchbothwithinmachine1earningandinthenatura1languageprocessingcommunity.Thispaperintroducestheoriginandde—velopmentofDirich1etprocess,andthemethodsformodel

7、ca1culating.Thispaperalsodemonstrateshowtousethismodeltoso1venaturallanguageprocessingtask.Intheend,thefutureresearchanddevelopmenttrendofDirichletprocessisdiscussed.Keyw0rds:computerapphcationg;Chineseinformationprocessing;nonparametricBayesianmodel;Dirichletprocess;Di

8、rich1etprocessmixturemode1;MarkovchainMonteCar1o未必是一定合適的。例如,在很多情況下我們并不引言能事先確定似然函數(shù)的數(shù)學(xué)形式,這樣建立一個具有固定參數(shù)集合的模型幾乎是不現(xiàn)實(shí)的。如果為似貝葉斯數(shù)據(jù)分析是統(tǒng)計學(xué)習(xí)中的一個重要分然函數(shù)指定了一個錯誤的數(shù)學(xué)形式,在此基礎(chǔ)上的支],常用于對滿足某種分布的觀察數(shù)據(jù)進(jìn)行建模,參數(shù)估計則會完全偏離實(shí)際的情形。為克服傳統(tǒng)參它的顯著優(yōu)點(diǎn)是可以直接使用概率來量化問題推理數(shù)模型的不足與局限性,一種變參數(shù)貝葉斯模型中的不確定性,因而具有廣泛的應(yīng)用性。然而傳統(tǒng)(No

9、nparametricBayesMode1)近些年來被提出j,的參數(shù)貝葉斯模型強(qiáng)烈地依賴于模型的參數(shù)假設(shè),它能夠直接從數(shù)據(jù)中學(xué)習(xí)概率分布等目標(biāo)函數(shù)。變而人工選擇參數(shù)是件很困難的事情,這種參數(shù)假設(shè)參數(shù)貝葉斯模型是一種無需進(jìn)行參數(shù)假設(shè)的概率模收稿日期:2O08一lO一13定稿日期:20Og—O2—24基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目資助(6O673o43);國家863高科技項(xiàng)目(2O06AAO1O1o9);江蘇省高校自然科學(xué)基金資助(O7KJB52[)()57)作者簡介:徐謙(1983),男,碩士生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、統(tǒng)計學(xué)習(xí);周

10、俊生(1972一),男,博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器學(xué)習(xí)和信息抽取;陳家駿(1963),男,教授,博導(dǎo),主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯和軟件工程。26中文信息學(xué)報型,因而具有很強(qiáng)的靈活性,能適應(yīng)于

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。