資源描述:
《基于本體的語(yǔ)義信息檢索技術(shù)的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、基于本體的語(yǔ)義信息檢索技術(shù)的研究基于關(guān)鍵詞處理的傳統(tǒng)檢索技術(shù)會(huì)在檢索過(guò)程中遺漏大量與檢索概念相關(guān)或同義的內(nèi)容。針對(duì)這種情況,提出了一種基于本體的Ms”中,“phone”、“Nokia”、“2006”和“MMS”是對(duì)象節(jié)點(diǎn),“manufacturedby”和“supporting”是對(duì)象節(jié)點(diǎn)應(yīng)具有的屬性。這類查詢?cè)诒倔w知識(shí)的支持下很容易進(jìn)行,問(wèn)題在于一般用戶很難構(gòu)建這類查詢。因而,在語(yǔ)義信息檢索領(lǐng)域,大多數(shù)有關(guān)復(fù)雜約束查詢的工作都在用戶接口的層次,研究如何能直觀地構(gòu)建查詢的方法。(4)信息查詢個(gè)性化 信息查
2、詢個(gè)性化通過(guò)軟件學(xué)習(xí)用戶個(gè)性特征,把獲得的個(gè)性化知識(shí)應(yīng)用于信息搜索過(guò)程中,在相同或是相近的信息資源中,針對(duì)兩個(gè)不同用戶的相似要求,返回給不同用戶不同的查詢結(jié)果。語(yǔ)義信息檢索中的個(gè)性化研究,旨在使用語(yǔ)義信息記錄用戶偏好,實(shí)現(xiàn)用戶偏好的確定、推理,為用戶提供個(gè)性化的檢索服務(wù)。區(qū)別于以往的個(gè)性化信息檢索,語(yǔ)義個(gè)性化研究中的用戶偏好被映射到了本體概念,具有了實(shí)際的含義,能夠提供更加強(qiáng)大的推理分析能力。(5)語(yǔ)義關(guān)聯(lián)分析 通常語(yǔ)義關(guān)聯(lián)分析被用于發(fā)現(xiàn)用戶感興趣的資源之間的關(guān)聯(lián),這些關(guān)聯(lián)本身就具有一定的價(jià)值。4基于本體
3、的信息檢索框架 基于本體論的智能檢索信息系統(tǒng)由于能提供查詢和資源描述所必需的語(yǔ)義信息,并通過(guò)領(lǐng)域本體[6]知識(shí)庫(kù)為信息源提供必要的語(yǔ)義標(biāo)注信息,從而使系統(tǒng)對(duì)領(lǐng)域內(nèi)的概念、概念之間的聯(lián)系及領(lǐng)域內(nèi)的基本公理知識(shí)有一個(gè)統(tǒng)一的認(rèn)識(shí),進(jìn)一步提高了系統(tǒng)的聯(lián)想能力和精確性,為用戶提供更有價(jià)值的信息。如圖1所示為基于本體的信息檢索模型的基本框架,該模型有四大部分組成:用戶界面模塊,查詢語(yǔ)義擴(kuò)展模塊,概念層次過(guò)濾模塊和自動(dòng)摘要模塊?! D1基于本體的信息檢索模型 ?。?)用戶界面模塊:用戶界
4、面模塊為用戶提供了與系統(tǒng)交互的接口,接受用戶的查詢請(qǐng)求,把查詢請(qǐng)求提交給查詢語(yǔ)義分析器去處理;用本體論加以規(guī)范后查詢領(lǐng)域本體知識(shí)庫(kù),從中找出出現(xiàn)該查詢請(qǐng)求的各個(gè)領(lǐng)域,然后將其領(lǐng)域以及在該領(lǐng)域下查詢請(qǐng)求的含義羅列給用戶,用戶此時(shí)可根據(jù)自己的意圖,在界面上確定所需查找的領(lǐng)域及含義。. ?。?)查詢語(yǔ)義擴(kuò)展模塊:查詢語(yǔ)義擴(kuò)展模塊是系統(tǒng)實(shí)現(xiàn)的核心模塊。查詢語(yǔ)義分析器會(huì)對(duì)用戶選擇好查找領(lǐng)域的查詢請(qǐng)求進(jìn)行分析,并且根據(jù)一定的查詢擴(kuò)展策略將用戶的查詢概念關(guān)系映射成為本體中的概念和關(guān)系,并且以此作為語(yǔ)義擴(kuò)展的基礎(chǔ),生成新的
5、檢索表達(dá)式,同時(shí)將其提交給推理機(jī)進(jìn)行語(yǔ)義推理。推理機(jī)參照領(lǐng)域本體,根據(jù)已有的公理、定理對(duì)語(yǔ)義元數(shù)據(jù)庫(kù)當(dāng)中的元數(shù)據(jù)進(jìn)行推理,加入新的檢索詞或短語(yǔ)。擴(kuò)展的詞匯是基于領(lǐng)域本體知識(shí)庫(kù)原檢索詞的同義詞以及相關(guān)詞的,也就是說(shuō)最終的查詢請(qǐng)求是基于用戶原始查詢請(qǐng)求中關(guān)鍵詞的一系列同義詞及相關(guān)詞?! 。?)概念層次過(guò)濾模塊:概念層次過(guò)濾能夠把搜索引擎返回的檢索結(jié)果進(jìn)行進(jìn)一步處理,主要是對(duì)檢索到的X頁(yè)進(jìn)行主題概念提取,如果提取出的主題概念和初始檢索的主題概念不相匹配或者差距較大就將這些檢索結(jié)果過(guò)濾掉,從而減少返回X頁(yè)中不符合用
6、戶請(qǐng)求的X頁(yè)的數(shù)量,提高檢索系統(tǒng)的查準(zhǔn)率?! ?4)自動(dòng)摘要:自動(dòng)摘要是檢索時(shí)返回X頁(yè)的簡(jiǎn)要概述,是建立在篇章理解和摘要生成相結(jié)合的基礎(chǔ)上的。篇章理解,就要對(duì)X頁(yè)中的文本的每一個(gè)語(yǔ)句進(jìn)行句法、語(yǔ)義分析,對(duì)全文作篇章分析,然后確定文章的主題思想;摘要生成,則要選擇恰當(dāng)?shù)脑~匯和句法方式來(lái)表達(dá)這個(gè)主題思想。這對(duì)自然語(yǔ)言的要求很高,實(shí)現(xiàn)較為困難。目前生成的文摘大多是摘錄性的,即把全文中能表達(dá)文章主要意思的句子挑選出來(lái),合在一起作為摘要。5主要的技術(shù)要點(diǎn)5.1領(lǐng)域本體的構(gòu)建 由于沒(méi)有統(tǒng)一的原則,加上每個(gè)實(shí)際構(gòu)建的本
7、體的類型和應(yīng)用情況也不同,幾乎每一個(gè)系統(tǒng)的開(kāi)發(fā)都會(huì)產(chǎn)生一些不同的本體構(gòu)建方案。目前為止,本體構(gòu)建中比較有名的幾種方法包括TOVE法、METHONTOLOGY法、骨架法、KACTUS法、SENSUS法、DEF5法和七步法等。但是,目前本體工程中尚沒(méi)有標(biāo)準(zhǔn)的權(quán)威的方法論,缺乏標(biāo)準(zhǔn)化的管理和制約。以上幾種方法均是在各自相應(yīng)的本體構(gòu)建項(xiàng)目中總結(jié)出來(lái)的,可以通過(guò)軟件生命周期法IEEE107421995作為參照標(biāo)準(zhǔn)進(jìn)行方法論成熟度的評(píng)價(jià)。7種方法的成熟度依次為:七步法、METHONTOLOGY法>IDEFS法>TOVE
8、法>骨架法>SENSUS法、KACTUS法?! ∵@里介紹一下七步法的思想和步驟,斯坦福大學(xué)開(kāi)發(fā)的“七步法”主要用于領(lǐng)域本體的構(gòu)建,其具體步驟包括7個(gè)階段:①確定本體的領(lǐng)域和范圍;②考慮復(fù)用現(xiàn)有的本體;③列出知識(shí)本體中的重要術(shù)語(yǔ);④定義類和類的等級(jí)體系;⑤定義類的屬性;⑥定義屬性的分面;⑦創(chuàng)建實(shí)例。5.2查詢預(yù)處理技術(shù) 當(dāng)前信息檢索工具提供給用戶的主要是基于關(guān)鍵詞的檢索接口,但是在很多情況下用戶真正的檢索意圖很難