資源描述:
《淺談基于lucene搜索引擎庫的本體映射方法的研究與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、2009屆研究生碩_L學(xué)位論文學(xué)校代碼:10269學(xué)號(hào):51061211007·季束師托帶基于Lucene搜索引擎庫的本體映射方法的研究與實(shí)現(xiàn)院系:信息科學(xué)與技術(shù)學(xué)院計(jì)算中心專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)研究方向:現(xiàn)代軟件技術(shù)指導(dǎo)教師:朱敏高級(jí)_〔程師碩仁研究生:陶艷琳2008年12月完成2009屆研究生碩士學(xué)位論文學(xué)校代碼:10269學(xué)號(hào):51061211007·季束呼托術(shù)帶基于Lucene搜索引擎庫的本體映射方法的研究與實(shí)現(xiàn)院系:言言息科學(xué)與技術(shù)學(xué)學(xué)院刻刻專業(yè):研究方向:指導(dǎo)教師:碩士研究生:2008年12月完成2009’5DissertationforMasterofSeieneeDegree
2、SehoolCode:10269S加dentNo:51061211007·季束師托術(shù)帶ResearchandImPlementationofanOntologyMaPPingaPProaehbased一onLueeneSearchEngineDePartment:Major:ResearChArea:SuPervisor:MinZhuCandidate:YanlinTaoNovembe幾2008Shanghai學(xué)位論文獨(dú)創(chuàng)性聲明本人所呈交的學(xué)位論文是我在導(dǎo)師的指導(dǎo)下進(jìn)行的研究工作及取得的研究成果.據(jù)我所知,除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含其他個(gè)人已經(jīng)發(fā)表或撰寫過的研究成果.對(duì)本文的
3、研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中作了明確說明并表示謝意.作者簽名:日期學(xué)位論文授權(quán)使用聲明本人完全了解華東師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,學(xué)校有權(quán)保留學(xué)位論文并向國家主管部門或其指定機(jī)構(gòu)送交論文的電子版和紙質(zhì)版。有權(quán)將學(xué)位論文用于非底利目的的少量復(fù)制并允許論文進(jìn)入學(xué)校圖書館被查閱。有權(quán)將學(xué)位論文的內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索.有權(quán)將學(xué)位論文的標(biāo)題和摘要匯編出版.保密的學(xué)位論文在解密后適用本規(guī)定。學(xué)位論文作者簽名:殉她琳導(dǎo)師簽名:日期日期尹尹葉呀‘‘l夕,l胸艷巫碩士學(xué)位論文答辯委員會(huì)成員名單姓姓名職稱稱單位備注注器器瓜孰嫂嫂物沁樹主席席繃繃歡媽;;枷粼娜補(bǔ)腳腳沁〕〕加牛牛捧含喊
4、枷粼粼、華東師范大學(xué)碩士論文基于Lucene搜索引擎庫的本體映射方法的研究與實(shí)現(xiàn)摘要隨著語義網(wǎng)絡(luò)的迅速成長,涌現(xiàn)和積聚了很多語義信息。然而,因?yàn)檎Z義網(wǎng)絡(luò)分布的自然性,語義網(wǎng)絡(luò)上的數(shù)據(jù)不可避免地來自于不同的本體。本體之間的信息加工處理不可能脫離了它們元素之間的語義映射而進(jìn)行。用手工來發(fā)現(xiàn)映射是單調(diào)的,易錯(cuò)的,而且很明顯在網(wǎng)絡(luò)范圍上是不切實(shí)際的。然而,通過本體,代理(人類和軟件)可以以一種(半)自動(dòng)的方式來進(jìn)行互動(dòng),以利用語義來查找信息。因此,本體映射成為了基于語義技術(shù)中的一個(gè)關(guān)鍵問題。開發(fā)本體映射(。ntofogyMaPPing)工具,就成為了語義網(wǎng)絡(luò)成功的關(guān)鍵因素,它是未來互聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)
5、集成與管理的有效途徑。本體映射算法是以兩個(gè)本體作為輸入,然后為這兩個(gè)本體中的各個(gè)元素(概念、屬性或者關(guān)系)建立相應(yīng)的語義關(guān)系。本文著重于本體映射問題,尤其是考慮本體用RDF(ResoureeDescriptionFramework資源描述框架)或oWL(研幾bOntologyLanguage網(wǎng)絡(luò)本體語言)來描述。雖然本體之間的一些特征完全不同,但是本體映射的方法卻存在著共同點(diǎn)。在大多數(shù)情況下,本體映射是利用語言層和結(jié)構(gòu)層信息,來找出兩個(gè)不同本體(源本體和目標(biāo)本體)的URlrefs(universalResourceIdentifierReferenceURI引用)之間的映射。雖然結(jié)構(gòu)匹配很
6、重要,但是它主要是基于語言之間的匹配。本文首先在前三章簡要介紹了本體及本體映射的概念,闡述了本體映射的主要方法,列舉了目前國際上主流的幾種本體映射方法和本體映射工具,并且詳細(xì)闡述了Lucene搜索引擎庫的主要機(jī)制,對(duì)其索引機(jī)制進(jìn)行了深入探討。在后面的章節(jié)中,著重介紹了本文提出的一種基于Lucene搜索引擎庫的本體映射方法,稱之為LseloM(Lueenesearchenginelibr娜ontolo盯M卿ing)。并對(duì)其進(jìn)行了實(shí)現(xiàn),最后通過實(shí)驗(yàn)對(duì)其的性能進(jìn)行了評(píng)估。本文利用Lucene的特點(diǎn)和性質(zhì),首先對(duì)源本體進(jìn)行解析,利用解析結(jié)果對(duì)源本體建立索引,在索引中,Lueene文檔收集了關(guān)于UR
7、frefs語言層上的信息(包括局部名、描述信息和屬性名,屬性值等)。然后利用目標(biāo)本體的URfrefs作為搜索條件,針對(duì)源本體建立的索引進(jìn)行搜索,從而得到映射,將映射結(jié)果輸出到Lucene的結(jié)果集中。本文的特點(diǎn)是,在搜索過程中,方法結(jié)合語言層上的兩種匹配方法:基于語義匹配的方法和基于字符串匹配的方法,在基于字符串匹配的方法中,本文利用I一Sub算法來實(shí)現(xiàn)對(duì)于字符串的匹配,而基于語義匹配的方法中,本文利用Lucene的特性,