基于本體概念的矢量檢索模型研究

ID：21684449

大?。?5.71 KB

頁數(shù)：12頁

時(shí)間：2018-10-23

資源描述：

《基于本體概念的矢量檢索模型研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于本體概念的矢量檢索模型研究〔摘要）針對(duì)傳統(tǒng)矢量空間模型文本特征值的計(jì)算，給出將文本的評(píng)價(jià)由基于語法的詞條空間轉(zhuǎn)化為概念空間的方法和策略：基于領(lǐng)域本體，依據(jù)本體概念間的各種關(guān)聯(lián)，先以一定的映射規(guī)則，將詞條映射到領(lǐng)域的概念術(shù)語空間；然后用概念統(tǒng)計(jì)和語義歸納替代傳統(tǒng)的詞頻統(tǒng)計(jì)，從概念語義的層次計(jì)算文本的特征矢量。實(shí)驗(yàn)證明，基于本體概念的矢量檢索模型能夠有效地表達(dá)文本的語義內(nèi)容，獲得更好的檢索效果?！碴P(guān)鍵詞）本體概念檢索矢量檢索模型〔分類號(hào)）TH18ResearchonVectorRetrievalModelBasedonOntologyConceptNieHuiDepar

2、tmentofInformationManagement,SunYat-senUniversity,Guangzhou510275LongZhaohuiLingnanCollege,SunYat-senUniversity,Guangzhou510275〔Abstract)Forobtainingadocumentsfeaturevalueofvectorspacemodel,thispaperpustforwardanapproachforevaluatingdocument'sfeaturevalue,whichisnotbasedontermspacebutcon

3、ceptspace.Thismethodissupportedbyfieldontology,andthewordsofdocumentarefirstlymappedtotheontologyconceptspaceaccordingtotherelationshipsofeachother.Then,unlikenormalstatisticalmethods,theweightoftermiscarriedoutintermsofthematicconceptualvectorretrievalmodel.Sincedocument’sfeaturevectori

4、sconstructedinthelightofsemanticcontentofDoc,theexperimentresultsindicatethattheperformanceofconceptVSMisbetterthannormalVSM.〔Keywords)ontologyconceptualretrievalvectorretrievalmodel1引言目前文本檢索最常用的是基于關(guān)鍵詞的矢量空間模型，該模型利用出現(xiàn)在文本中的某些關(guān)鍵詞語及表征關(guān)鍵詞重要性的權(quán)值構(gòu)成矢量，表達(dá)文本與查詢需求的語義內(nèi)容［1］，并采用矢量?jī)?nèi)積計(jì)算文本特征矢量與查詢矢量間的相似度，

5、以此給出中選文本的排序。由于矢量空間模型在很大程度上依賴于其內(nèi)容的特征描述，又以詞匹配策略為檢索機(jī)制，因此往往存在某些自身難以克服的問題，主要表現(xiàn)在:①矢量空間模型以文本中出現(xiàn)的詞形表達(dá)文本的語義內(nèi)容，其相關(guān)性判斷只是詞語的字面匹配。一詞多義，一義多詞等情況難解決；②缺乏具有語義特征的規(guī)范詞匯集，抽取索引詞的方法建立在語法基礎(chǔ)上，索引關(guān)鍵詞語表達(dá)語義的能力有限，致使文本的特征矢量并不能有效地代表文本的語義內(nèi)容。另外，因?yàn)闆]有具有語義特征的規(guī)范詞集，檢索請(qǐng)求的矢量描述隨意且不精確，也不能有效代表用戶的信息需求［2］。這種檢索模型的性能自然不佳。在檢索機(jī)制中引入語義處理技術(shù)

6、，是文本檢索智能化的重要途徑。本文即針對(duì)矢量檢索機(jī)制中的語義處理展開研究。為了使構(gòu)造的特征詞矢量盡可能準(zhǔn)確地反映用戶查詢或文本原義，我們將文本及查詢表示為概念的矢量表達(dá)，化傳統(tǒng)的矢量檢索模型為基于語義的概念矢量檢索模型，不僅能解決一義多詞和一詞多義等問題，而且經(jīng)過語義處理的文本特征矢量與查詢矢量更準(zhǔn)確地表達(dá)了其內(nèi)容的原義，沿用矢量?jī)?nèi)積的方法計(jì)算得到的相似度也更能體現(xiàn)文本間的語義關(guān)聯(lián)。另外，大量研宄表明，本體作為表達(dá)語義的基礎(chǔ)是合適的［2］?；诖?，在本體支持下，我們構(gòu)建領(lǐng)域知識(shí)的概念空間，利用本體概念間的相等關(guān)系、同義關(guān)系、上下位關(guān)系及其他相關(guān)性歸納融合文本詞條，重構(gòu)本

7、文及查詢語句的特征描述，實(shí)現(xiàn)基于概念空間的矢量檢索模型。文章的第2部分給出矢量檢索模型的一般定義。第3部分探討在本體支持下的文本及查詢的概念矢量表達(dá)及概念權(quán)重的計(jì)算方法，給出概念矢量模型中的相似度計(jì)算。第4部分與傳統(tǒng)矢量檢索模型進(jìn)行比較，實(shí)驗(yàn)分析該方法的檢索性能及效果。2矢量空間模型傳統(tǒng)的矢量檢索模型，以詞形為基礎(chǔ)選擇索引詞，再運(yùn)用一定的項(xiàng)加權(quán)策略（通常為tf-idf）設(shè)定索引詞的權(quán)值，構(gòu)成文本及查詢的特征矢量。一般情況，文本被表達(dá)為詞條（Term）空間中的某個(gè)矢量T{ti,dtij},公式（1）中的tfi為詞條ti在文本dj中出現(xiàn)的頻度

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 12



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于本體概念的矢量檢索模型研究

基于本體概念的矢量檢索模型研究

相關(guān)文章

相關(guān)標(biāo)簽