資源描述:
《基于本體的文本信息檢索研究_楊建林 (2).pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、信息系統(tǒng)ITA●楊建林(南京大學(xué)信息管理系江蘇210093)基于本體的文本信息檢索研究摘要:本文對(duì)如何構(gòu)建基于本體的文本信息檢索系統(tǒng)進(jìn)行了探討,并認(rèn)為,利用反映概念之間關(guān)系的領(lǐng)域本體指導(dǎo)主題標(biāo)引,利用反映實(shí)體之間關(guān)系的領(lǐng)域本體指導(dǎo)實(shí)體關(guān)系標(biāo)引,并以本體的形式表示文檔替代物和查詢表達(dá)式,可以進(jìn)一步提高文本信息檢索系統(tǒng)的性能。關(guān)鍵詞:本體;信息檢索;文本檢索;標(biāo)引Abstract:Thepaperdiscusseshowtoconstructanontology-basedtextinformationretrievalsystem,a
2、ndthinksthatifthesubjectindexingisbasedonthedomainontologiesdescribingtherelationsbetweenconcepts,theentityrelationindexingisbasedonthedomainontologiesdescribingtherelationsbetweenentities,andthedocumentsur-rogatesandqueryexpressionsaredescribedintheformatofontology,th
3、eperformanceofthetextinformationretriev-alsystemwillbeimproved.Keywords:ontology;informationretrieval;textretrieval;indexing檢索對(duì)象都是Web資源,很少涉及無(wú)結(jié)構(gòu)的文本。但是,1引言現(xiàn)有的信息檢索系統(tǒng),除搜索引擎外,大部分系統(tǒng)的信息基于關(guān)鍵詞匹配的傳統(tǒng)文本信息檢索技術(shù)對(duì)語(yǔ)義匹配源都是無(wú)結(jié)構(gòu)的文本。因此,研究基于本體的文本信息檢的支持能力較差,其性能取決于用戶對(duì)方法的理解,具有索依然具有重要的現(xiàn)實(shí)意義。很大的局限
4、性。盡管基于關(guān)鍵詞匹配的檢索技術(shù)已經(jīng)經(jīng)過(guò)2本體概念了多次改進(jìn),但是由于沒(méi)有添加語(yǔ)義處理方面的功能,致使檢索性能沒(méi)有得到根本的改善,那些沒(méi)有被文字直接表本體是一個(gè)源于哲學(xué)的概念,原意指關(guān)于存在及其本述出來(lái)但隱含在文本內(nèi)容中的一些重要的信息也無(wú)法被檢質(zhì)和規(guī)律的學(xué)說(shuō),后來(lái)被計(jì)算機(jī)科學(xué)領(lǐng)域引入,特指對(duì)共索。享概念模型所作的明確化、形式化、規(guī)范化說(shuō)明,它強(qiáng)調(diào)近幾年,本體理論的發(fā)展和逐步成熟為信息檢索技術(shù)領(lǐng)域中的本質(zhì)概念,也強(qiáng)調(diào)這些本質(zhì)概念之間的關(guān)聯(lián)。某的發(fā)展帶來(lái)了新的動(dòng)力,同時(shí)也為提高檢索系統(tǒng)的查準(zhǔn)率個(gè)領(lǐng)域的本體能夠?qū)⒃擃I(lǐng)域中的各種概念及概念
5、之間的關(guān)和查全率提供了更好的保證。作為一種有效表現(xiàn)概念層次系顯性地、形式化地表達(dá)出來(lái),從而將概念中包含的語(yǔ)義結(jié)構(gòu)和語(yǔ)義的理論和方法,本體已經(jīng)被廣泛應(yīng)用于計(jì)算機(jī)表達(dá)出來(lái)??茖W(xué)和信息管理領(lǐng)域,并且被成功應(yīng)用于構(gòu)建新的智能檢在計(jì)算機(jī)科學(xué)領(lǐng)域,術(shù)語(yǔ)“本體”是英文“Ontolo-索系統(tǒng)。gy”的中文譯法。Ontology在人工智能或信息系統(tǒng)中的中基于本體的智能檢索系統(tǒng)是基于知識(shí)的、語(yǔ)義上的匹文翻譯,國(guó)內(nèi)有不同的名稱,如“概念集”、“應(yīng)用知識(shí)配,在查全率和查準(zhǔn)率上有更好的保證。具體表現(xiàn)為:利體系”,“概念分類體系”,“實(shí)體論”,“本體論”、“本
6、體用本體,在用戶提問(wèn)檢索式構(gòu)造過(guò)程中增加語(yǔ)義指導(dǎo),消模型”,“本體”、“本體簇”等。由于Ontology在英語(yǔ)中除自然語(yǔ)言理解中的歧義,明確概念含義,使得構(gòu)造出的的新的含義也是引申來(lái)的,是一個(gè)新概念,所以出現(xiàn)了翻[2]提問(wèn)檢索式能夠更加準(zhǔn)確地反映用戶的真實(shí)信息需求;使譯成不同名稱的現(xiàn)象。得用戶能夠更加準(zhǔn)確、方便地實(shí)現(xiàn)擴(kuò)展檢索和縮小檢索;在具體的應(yīng)用環(huán)境中如何規(guī)范化地描述本體到目前加強(qiáng)檢索系統(tǒng)的推理功能,在完成對(duì)信息源搜索的基礎(chǔ)為止,還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。目前有兩種本體表示方法應(yīng)用上,根據(jù)相關(guān)概念以及相關(guān)背景知識(shí)進(jìn)行推理,挖掘出文相對(duì)廣
7、泛,第一種是傳統(tǒng)的四元素表示方法,第二種是較[1]本中的隱含信息,從而實(shí)現(xiàn)基于概念的智能檢索。因新的六元組表示法。前者源于Gruber博士的觀點(diǎn),后者此,基于本體的信息檢索成為一個(gè)新的發(fā)展方向。則是2002年由新加坡南洋理工大學(xué)的MyoMyoNaing博士現(xiàn)有的大部分關(guān)于基于本體的信息檢索研究,討論的提出。前者在世界范圍內(nèi)得到了比較高的認(rèn)同,但是形式—598—第29卷2006年第5期ITA信息系統(tǒng)過(guò)于靈活,不易掌握。后者因?yàn)槎x規(guī)范,可操作性強(qiáng),利用得到的本體對(duì)查詢表達(dá)式進(jìn)行優(yōu)化,以提高信息檢索[3]受到了國(guó)內(nèi)廣大研究者的歡迎。的效
8、果。該系統(tǒng)中使用的TextToOnto是一個(gè)采用自然語(yǔ)言四元素表示方法的基本思想是:一個(gè)本體主要由概念處理技術(shù)和文本挖掘技術(shù)的工具軟件,它支持本體的半自(Concepts)、關(guān)系(Relations)、實(shí)例(Instances)和公理