dirichlet過程及其在自然語言處理中的應(yīng)用

ID：34441293

大?。?85.45 KB

頁數(shù)：9頁

時間：2019-03-06

資源描述：

《dirichlet過程及其在自然語言處理中的應(yīng)用》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第23卷第5期中文信息學(xué)報Vo1．23，No．52009年9月JOURNALOFCHINESEINFORMATIONPROCESSINGSep．，2009文章編號：1O03—0077(2OO9)O5一O025一O8Dirichlet過程及其在自然語言處理中的應(yīng)用徐謙，周俊生，陳家駿(1．南京大學(xué)計算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室，江蘇南京21O093；2．南京師范大學(xué)計算機(jī)科學(xué)系，江蘇南京21。O97)摘要：D

2、richlet過程是一種典型的變參數(shù)貝葉斯模型，其優(yōu)點(diǎn)是參數(shù)的個數(shù)和性質(zhì)靈活可變，可通過模型和數(shù)據(jù)來自主地計算，近年來它已成為機(jī)

3、器學(xué)習(xí)和自然語言處理研究領(lǐng)域中的一個研究熱點(diǎn)。該文較為系統(tǒng)的介紹了Dirich1et過程的產(chǎn)生、發(fā)展，并重點(diǎn)介紹了其模型計算，同時結(jié)合自然語言處理中的具體應(yīng)用問題進(jìn)行了詳細(xì)分析。最后討論了D

4、richlet過程未來的研究方向和發(fā)展趨勢。關(guān)鍵詞：計算機(jī)應(yīng)用；中文信息處理；變參數(shù)貝葉斯模型；D_richlet過程；Dirjchlet過程混合模型；馬爾可夫鏈蒙特卡羅中圖分類號：TP391文獻(xiàn)標(biāo)識碼：ADirichletPrOcessandItsApplicatiOnsinNaturalLanguagePrOcessingXUQian，ZHO

5、UJunsheng，CHENJiajun(1．StateKeyIaboratoryforNovelSoftwareTechnology，NanjingUniversity，Nanjing，Jiangsu21OO93，China；2．DepartmentofComputerScience，NanjingNormal，University，NanjingJiangsu，21OO97，China)Abstract：Dirich1etprocessisawe1卜knownnonparametricBayesianmodel，withtheat

6、tractivepropertyofaflex．blenumberofcomponentsdeterminedbythemodelandthedata．TheDirich1etprocessisanactiveareaofresearchbothwithinmachine1earningandinthenatura1languageprocessingcommunity．Thispaperintroducestheoriginandde—velopmentofDirich1etprocess，andthemethodsformodel

7、ca1culating．Thispaperalsodemonstrateshowtousethismodeltoso1venaturallanguageprocessingtask．Intheend，thefutureresearchanddevelopmenttrendofDirichletprocessisdiscussed．Keyw0rds：computerapphcationg；Chineseinformationprocessing；nonparametricBayesianmodel；Dirichletprocess；Di

8、rich1etprocessmixturemode1；MarkovchainMonteCar1o未必是一定合適的。例如，在很多情況下我們并不引言能事先確定似然函數(shù)的數(shù)學(xué)形式，這樣建立一個具有固定參數(shù)集合的模型幾乎是不現(xiàn)實(shí)的。如果為似貝葉斯數(shù)據(jù)分析是統(tǒng)計學(xué)習(xí)中的一個重要分然函數(shù)指定了一個錯誤的數(shù)學(xué)形式，在此基礎(chǔ)上的支]，常用于對滿足某種分布的觀察數(shù)據(jù)進(jìn)行建模，參數(shù)估計則會完全偏離實(shí)際的情形。為克服傳統(tǒng)參它的顯著優(yōu)點(diǎn)是可以直接使用概率來量化問題推理數(shù)模型的不足與局限性，一種變參數(shù)貝葉斯模型中的不確定性，因而具有廣泛的應(yīng)用性。然而傳統(tǒng)(No

9、nparametricBayesMode1)近些年來被提出j，的參數(shù)貝葉斯模型強(qiáng)烈地依賴于模型的參數(shù)假設(shè)，它能夠直接從數(shù)據(jù)中學(xué)習(xí)概率分布等目標(biāo)函數(shù)。變而人工選擇參數(shù)是件很困難的事情，這種參數(shù)假設(shè)參數(shù)貝葉斯模型是一種無需進(jìn)行參數(shù)假設(shè)的概率模收稿日期：2O08一lO一13定稿日期：20Og—O2—24基金項(xiàng)目：國家自然科學(xué)基金項(xiàng)目資助(6O673o43)；國家863高科技項(xiàng)目(2O06AAO1O1o9)；江蘇省高校自然科學(xué)基金資助(O7KJB52[)()57)作者簡介：徐謙(1983)，男，碩士生，主要研究領(lǐng)域?yàn)樽匀徽Z言處理、統(tǒng)計學(xué)習(xí)；周

10、俊生(1972一)，男，博士，副教授，主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器學(xué)習(xí)和信息抽取；陳家駿(1963)，男，教授，博導(dǎo)，主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯和軟件工程。26中文信息學(xué)報型，因而具有很強(qiáng)的靈活性，能適應(yīng)于

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 9



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

dirichlet過程及其在自然語言處理中的應(yīng)用

dirichlet過程及其在自然語言處理中的應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽