資源描述:
《一種基于領(lǐng)域本體的語義檢索系統(tǒng)的設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、一種基于領(lǐng)域本體的語義檢索系統(tǒng)的設(shè)計與實現(xiàn)[摘要]基于領(lǐng)域本體的語義檢索被認為是解決目前信息檢索領(lǐng)域中所面臨的困難的途徑之一。從語義推理、查詢分析等幾個關(guān)鍵方面對基于領(lǐng)域本體的語義檢索進行研宄,在此基礎(chǔ)上設(shè)計并實現(xiàn)一個基于領(lǐng)域本體的語義檢索實驗系統(tǒng),通過測試表明該系統(tǒng)能夠較為有效地實現(xiàn)語義檢索,提高檢索精度。[關(guān)鍵詞]領(lǐng)域本體語義檢索語義推理Jena[分類號]G3541引言以計算機技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)為代表的現(xiàn)代信息技術(shù)的飛速發(fā)展,改善了信息檢索技術(shù)的軟硬件環(huán)境,促進了信息檢索理論與實踐的發(fā)展,同時也給信息檢索帶來了新的挑戰(zhàn)。如何從海量信息資源中快速、準確、高
2、效地檢索到所需信息,是現(xiàn)階段值得關(guān)注的問題。用戶對高質(zhì)量信息的需求和利用與信息量急劇增長之間的矛盾,尚未得到很好的解決。而語義檢索能適應(yīng)用戶的現(xiàn)實信息需求及其發(fā)展變化。領(lǐng)域本體描述了領(lǐng)域知識模型,基于領(lǐng)域本體可以實現(xiàn)語義檢索,提高檢索精度。目前有不少關(guān)于領(lǐng)域本體的語義檢索的理論研宄論文,但從實踐角度構(gòu)建檢索系統(tǒng),進行測試和評價的論文還很少。本文將以領(lǐng)域本體為基礎(chǔ),研究基于領(lǐng)域本體的語義檢索關(guān)鍵技術(shù),并在此基礎(chǔ)上設(shè)計并實現(xiàn)了一個基于領(lǐng)域本體的語義檢索模型,通過測試對該模型的性能和不足之處進行了分析。2相關(guān)研究目前絕大多數(shù)搜索引擎以及專業(yè)全文數(shù)據(jù)庫,都采用關(guān)鍵詞檢索方
3、式?;陉P(guān)鍵字(詞)的機械匹配進行檢索的方式嚴重地割裂了字、詞間的語義關(guān)聯(lián),檢索過程不包含任何語義信息,導(dǎo)致用戶查詢獲得的檢索結(jié)果不盡如人意。這種查詢機制缺乏智能性和知識性,越來越難以滿足人們?nèi)找嬖鲩L的知識需求。為了克服關(guān)鍵詞檢索的不足,學者們提出了另外一種稱為概念檢索的檢索方法,這種方法通過概念詞典對用戶的檢索提問進行規(guī)范、查詢和擴展來理解用戶的檢索意圖。概念詞典一般是由專家手工定義的專業(yè)詞表或者通過機器學習生成的關(guān)聯(lián)概念空間。概念檢索方法雖然克服了基于關(guān)鍵詞檢索中不考慮語義信息的局限性,但不足之處在于概念詞典表達的概念關(guān)系有限,而且無法表現(xiàn)公理、規(guī)則等。以上兩
4、種方法可以看作是初級的語義檢索方式,雖然能在一定程度上解決基于關(guān)鍵詞檢索方式的不足,但對于能夠理解用戶的檢索意圖,理解關(guān)鍵詞所表達的語義這些高級功能還無法實現(xiàn)。因此,需要有一種比敘詞表、關(guān)聯(lián)概念空間更為豐富的語義表達工具作為檢索的支撐,而本體的特性恰好適合于知識表達,能夠充分描述知識模型,支持語義推理,同時采用通用的知識建模語言,更適合網(wǎng)絡(luò)環(huán)境下的知識共享和互操作。3系統(tǒng)設(shè)計3.1設(shè)計原理基于領(lǐng)域本體的語義檢索系統(tǒng)的設(shè)計核心,是在查詢和檢索資源中引入領(lǐng)域本體層作為匹配和推理的核心部件。與傳統(tǒng)的檢索方法相比,增加了一個本體檢索推理層,其工作機理如圖1所示。領(lǐng)域本體在
5、構(gòu)建的時候已經(jīng)對該領(lǐng)域的概念進行了分類,每個類別下有具體的實例,每個實例賦予了一定屬性關(guān)系。系統(tǒng)在獲得了用戶的檢索關(guān)鍵詞之后,通過語義推理以及RDQL語句的構(gòu)建,將會對本體庫發(fā)出查詢指令,如果在本體庫中存在滿足條件的實例,那么該實例就會被檢索出來,從而使得計算機“理解”用戶的查詢庫進行檢索本體的查詢結(jié)果將作為二次檢索詞對文獻資源3.2總體設(shè)計根據(jù)上述原理,本文設(shè)計了一個基于領(lǐng)域本體的語義檢索系統(tǒng),該系統(tǒng)主要由以下四個模塊組成:?提問分析模塊。主要作用是對用戶的提問式進行處理,過濾停用詞,抽取具有檢索意義的實詞并且判斷用戶的提問中心。?語義推理模塊。主要作用是根據(jù)用
6、戶的提問詞進行語義關(guān)系判斷,判斷出各個提問式之間隱含的語義關(guān)系,明確用戶的真正檢索意圖。?查詢分析模塊。在語義推理的基礎(chǔ)上,根據(jù)語義關(guān)系,自動構(gòu)建RDCU查詢語句,對本體庫進行查詢,并且把查詢結(jié)果返回給用戶。?本體管理模塊。主要是本體的瀏覽、導(dǎo)航和可視化顯示作用,通過本體瀏覽模塊可以清晰地發(fā)現(xiàn)概念之間的關(guān)系,可視化組件可以對領(lǐng)域本體中的概念關(guān)系以動態(tài)圖的形式直觀展現(xiàn)出來。4系統(tǒng)實現(xiàn)本文采用java語言實現(xiàn)了一個基于領(lǐng)域本體的含義檢索系統(tǒng),該系統(tǒng)所采用的開發(fā)環(huán)境是Windows2000,JDKI,5,開發(fā)工具為」Builder2005以及語義開發(fā)包Jena2.3o4
7、.1提問詞分析模塊?抽詞。抽詞模塊首先對用戶的檢索式進行處理,抽取其中有檢索意義的實詞。?檢索詞標注。利用領(lǐng)域本體中的類別信息對檢索詞進行標注,將具體實例標注為其所屬的類,這是對檢索詞進行的規(guī)范化處理,是建立計算機理解檢索詞的基礎(chǔ)。?抽取提問中心。抽取用戶的提問中心,是對用戶的檢索詞進行語義判斷的基礎(chǔ)。在用戶的檢索式中,提問中心通常是抽象詞,而具體的實例則是對提問中心的限制或描述。抽取提問中心的方法是利用領(lǐng)域本體的類(Class)對檢索式進行抽取,抽取到的類名詞則為提問中心。4.2查詢分析模塊傳統(tǒng)的信息檢索模型是將各個檢索詞看作是孤立的,忽略檢索詞之間的語義關(guān)系,
8、這也是造成