資源描述:
《基于本體概念的矢量檢索模型研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于本體概念的矢量檢索模型研究〔摘要)針對(duì)傳統(tǒng)矢量空間模型文本特征值的計(jì)算,給出將文本的評(píng)價(jià)由基于語法的詞條空間轉(zhuǎn)化為概念空間的方法和策略:基于領(lǐng)域本體,依據(jù)本體概念間的各種關(guān)聯(lián),先以一定的映射規(guī)則,將詞條映射到領(lǐng)域的概念術(shù)語空間;然后用概念統(tǒng)計(jì)和語義歸納替代傳統(tǒng)的詞頻統(tǒng)計(jì),從概念語義的層次計(jì)算文本的特征矢量。實(shí)驗(yàn)證明,基于本體概念的矢量檢索模型能夠有效地表達(dá)文本的語義內(nèi)容,獲得更好的檢索效果?!碴P(guān)鍵詞)本體概念檢索矢量檢索模型〔分類號(hào))TH18ResearchonVectorRetrievalModelBasedonOntologyConceptNieHuiDepar
2、tmentofInformationManagement,SunYat-senUniversity,Guangzhou510275LongZhaohuiLingnanCollege,SunYat-senUniversity,Guangzhou510275〔Abstract)Forobtainingadocumentsfeaturevalueofvectorspacemodel,thispaperpustforwardanapproachforevaluatingdocument'sfeaturevalue,whichisnotbasedontermspacebutcon
3、ceptspace.Thismethodissupportedbyfieldontology,andthewordsofdocumentarefirstlymappedtotheontologyconceptspaceaccordingtotherelationshipsofeachother.Then,unlikenormalstatisticalmethods,theweightoftermiscarriedoutintermsofthematicconceptualvectorretrievalmodel.Sincedocument’sfeaturevectori
4、sconstructedinthelightofsemanticcontentofDoc,theexperimentresultsindicatethattheperformanceofconceptVSMisbetterthannormalVSM.〔Keywords)ontologyconceptualretrievalvectorretrievalmodel1引言目前文本檢索最常用的是基于關(guān)鍵詞的矢量空間模型,該模型利用出現(xiàn)在文本中的某些關(guān)鍵詞語及表征關(guān)鍵詞重要性的權(quán)值構(gòu)成矢量,表達(dá)文本與查詢需求的語義內(nèi)容[1],并采用矢量?jī)?nèi)積計(jì)算文本特征矢量與查詢矢量間的相似度,
5、以此給出中選文本的排序。由于矢量空間模型在很大程度上依賴于其內(nèi)容的特征描述,又以詞匹配策略為檢索機(jī)制,因此往往存在某些自身難以克服的問題,主要表現(xiàn)在:①矢量空間模型以文本中出現(xiàn)的詞形表達(dá)文本的語義內(nèi)容,其相關(guān)性判斷只是詞語的字面匹配。一詞多義,一義多詞等情況難解決;②缺乏具有語義特征的規(guī)范詞匯集,抽取索引詞的方法建立在語法基礎(chǔ)上,索引關(guān)鍵詞語表達(dá)語義的能力有限,致使文本的特征矢量并不能有效地代表文本的語義內(nèi)容。另外,因?yàn)闆]有具有語義特征的規(guī)范詞集,檢索請(qǐng)求的矢量描述隨意且不精確,也不能有效代表用戶的信息需求[2]。這種檢索模型的性能自然不佳。在檢索機(jī)制中引入語義處理技術(shù)
6、,是文本檢索智能化的重要途徑。本文即針對(duì)矢量檢索機(jī)制中的語義處理展開研究。為了使構(gòu)造的特征詞矢量盡可能準(zhǔn)確地反映用戶查詢或文本原義,我們將文本及查詢表示為概念的矢量表達(dá),化傳統(tǒng)的矢量檢索模型為基于語義的概念矢量檢索模型,不僅能解決一義多詞和一詞多義等問題,而且經(jīng)過語義處理的文本特征矢量與查詢矢量更準(zhǔn)確地表達(dá)了其內(nèi)容的原義,沿用矢量?jī)?nèi)積的方法計(jì)算得到的相似度也更能體現(xiàn)文本間的語義關(guān)聯(lián)。另外,大量研宄表明,本體作為表達(dá)語義的基礎(chǔ)是合適的[2]?;诖?,在本體支持下,我們構(gòu)建領(lǐng)域知識(shí)的概念空間,利用本體概念間的相等關(guān)系、同義關(guān)系、上下位關(guān)系及其他相關(guān)性歸納融合文本詞條,重構(gòu)本
7、文及查詢語句的特征描述,實(shí)現(xiàn)基于概念空間的矢量檢索模型。文章的第2部分給出矢量檢索模型的一般定義。第3部分探討在本體支持下的文本及查詢的概念矢量表達(dá)及概念權(quán)重的計(jì)算方法,給出概念矢量模型中的相似度計(jì)算。第4部分與傳統(tǒng)矢量檢索模型進(jìn)行比較,實(shí)驗(yàn)分析該方法的檢索性能及效果。2矢量空間模型傳統(tǒng)的矢量檢索模型,以詞形為基礎(chǔ)選擇索引詞,再運(yùn)用一定的項(xiàng)加權(quán)策略(通常為tf-idf)設(shè)定索引詞的權(quán)值,構(gòu)成文本及查詢的特征矢量。一般情況,文本被表達(dá)為詞條(Term)空間中的某個(gè)矢量T{ti,dtij},公式(1)中的tfi為詞條ti在文本dj中出現(xiàn)的頻度