資源描述:
《生物醫(yī)學(xué)縮略語消歧》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、生物醫(yī)學(xué)縮略語消歧中文摘要隨著計(jì)算機(jī)技術(shù)和生物技術(shù)的進(jìn)步,當(dāng)前生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)J下在爆炸性增長。文獻(xiàn)中蘊(yùn)含著最新的研究成果和豐富的生物醫(yī)學(xué)知識。從生物醫(yī)學(xué)文獻(xiàn)中自動獲取生物醫(yī)學(xué)知識已經(jīng)成為生物信息學(xué)研究的重要領(lǐng)域。生物醫(yī)學(xué)縮略語消歧在生物醫(yī)學(xué)和自然語言處理領(lǐng)域有著重要的理論和實(shí)踐意義,在機(jī)器翻譯和信息檢索領(lǐng)域起著非常重要的作用。生物醫(yī)學(xué)縮略語在文獻(xiàn)中出現(xiàn)形式有兩種:一種縮略語與其全稱同時(shí)出現(xiàn),另一種文獻(xiàn)中只有縮略語出現(xiàn)。縮略語的出現(xiàn)形式?jīng)Q定了當(dāng)前縮略語消歧的方法主要有兩種:基于啟發(fā)式方法,需要構(gòu)建規(guī)則集;另一種是使用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法,從大量的樣本中推導(dǎo)出語言使用模型。由于
2、生物醫(yī)學(xué)文獻(xiàn)的復(fù)雜性和多樣性,生物醫(yī)學(xué)縮略語在文獻(xiàn)中的出現(xiàn)形式亦呈現(xiàn)出多樣性。生物醫(yī)學(xué)縮略語消歧是一個相當(dāng)困難的任務(wù)。本文根據(jù)生物醫(yī)學(xué)縮略語在文獻(xiàn)中出現(xiàn)的形式,分別應(yīng)用基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法對生物醫(yī)學(xué)縮略語消歧進(jìn)行了深入研究。對于需要消歧的文檔,本文首先根據(jù)縮略語識別法定位到縮略語;其次用基于規(guī)則和統(tǒng)計(jì)的方法對第一種形式的縮略語進(jìn)行消歧;然后使用縮略語詞典判斷是否對此縮略語消歧;若此步?jīng)]有找到縮略語正確全稱,最后進(jìn)行全局縮略語消歧。本文通過實(shí)驗(yàn)分析證明基于向量空間模型的方法最適用于第二種形式的生物醫(yī)學(xué)縮略語消歧。生物醫(yī)學(xué)縮略語消歧實(shí)驗(yàn)?zāi)壳斑€沒有統(tǒng)一的語料,以往研究都是針對
3、文獻(xiàn)中縮略語出現(xiàn)的其一種形式進(jìn)行消歧,沒有形成完善、高效的消歧系統(tǒng)。本文在自己構(gòu)建語料的基礎(chǔ)上進(jìn)行實(shí)驗(yàn)證明:本文所構(gòu)建的生物醫(yī)學(xué)縮略語消歧系統(tǒng),實(shí)現(xiàn)了所有形式的縮略語消歧,并且取得了較高的性能,達(dá)到了目前的較好水平。本文的研究和所取得的成果對今后縮略語消歧研究具有一定的參考價(jià)值。關(guān)鍵詞:生物醫(yī)學(xué)縮略語縮略語識別縮略語消歧啟發(fā)式方法機(jī)器學(xué)習(xí)作者:楊華指導(dǎo)老師:姚建民DisambiguationofBiomedicalAbbreviationAbstractWiththeadvancementofcomputingtechnologyandbiotechnology,theamou
4、ntofbiomedicalliteratureisincreasinginailexplosivespeed.Theliteraturecontainsthelatestresearchprogressandrichbiomedicalknowledge,howtoextracttheinformationfrombiomedicineliteratureisbecominganimportantresearchareainthefieldofbioinformatics.Thedisambiguationofbiomedicalabbreviationshasthespec
5、ialsignificancetobiomedicalfieldsandnaturallanguageprocessing,andisessentialforapplicationssuchasmachinetranslationandinformationretrieval.Thebiomedicalabbreviationhastwoformsinliterature.Oneisthattheabbreviationanditsfullformallappearintheliterature.Anotheristhatonlyabbreviationappearsinthe
6、literature.Becauseoftheformofabbreviation,thedisambiguationofabbreviationhastwomaintendencies.Thefirstonesrelyonheuristiemethod,whichneedconstructthesetofrules.Thesecondonesusetechniquesfromstatisticsandmachinelearningtoinducemodelsoflanguageusagefromlargesamples.Duetothecomplexityandvariabi
7、lityofbiomedicaltextsandtheformofabbreviation,thedisambiguationofbiomedicalabbreviationsisadifficulttask.Accordingastheformofabbreviation,thispaperusestherule—basedandmachinelearningmethodstodisambiguateabbreviations.Theinputofthisdisambiguationsys