資源描述:
《基于關(guān)鍵詞的RDF數(shù)據(jù)圖查詢模型研究-論文.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第42卷第7期計(jì)算機(jī)科學(xué)Vo1.42No.72015年7月ComputerScienceJuly2015基于關(guān)鍵詞的RDF數(shù)據(jù)圖查詢模型研究鄭志蘊(yùn)劉博李倫王振飛(鄭州大學(xué)信息工程學(xué)院鄭州450001)摘要隨著語(yǔ)義網(wǎng)數(shù)據(jù)的海量涌現(xiàn),人們更加關(guān)注RDF圖的數(shù)據(jù)查詢效率,通過(guò)關(guān)鍵詞匹配直接查詢RDF數(shù)據(jù)圖成為一個(gè)研究熱點(diǎn)。針對(duì)關(guān)鍵詞查詢中普遍存在的結(jié)果冗余與偏離等問(wèn)題,提出了一種基于關(guān)鍵詞的RDF數(shù)據(jù)圖查詢模型。該模型首先采用提出的基于迭代的圖查詢算法(ISGR)對(duì)所查詢關(guān)鍵詞進(jìn)行子圖匹配,得到唯一且最大的結(jié)果子圖集合;然后根據(jù)關(guān)鍵詞圖與
2、結(jié)果子圖之間的結(jié)構(gòu)信息,利用統(tǒng)計(jì)語(yǔ)言模型,給出了一種結(jié)果子圖排序方法(Sim—LM)。對(duì)比實(shí)驗(yàn)表明,提出的查詢模型及排序方法在一致性和相關(guān)性方面的性能優(yōu)于傳統(tǒng)模型。關(guān)鍵詞RDF數(shù)據(jù)圖,關(guān)鍵詞查詢,子圖,相似度矩陣,統(tǒng)計(jì)語(yǔ)言模型中圖法分類號(hào)TP391.3文獻(xiàn)標(biāo)識(shí)碼ADOI10.11896/j.issn.1002—137X.2015.7.050ResearchofKeywordSearchModeloverRDFDataGraphZHENGZhi—yunLIUBoLILunWANGZhen-fei(SchoolofInformation
3、Engineering,ZhengzhouUniversity,Zhengzhou450001,China)AbstractAshugeamountsofthesemanticWebdatahavesprungup,peoplearemoreconcernedaboutqueryefficiencyoverRDFdatagraph.RetrievingRDFdatagraphdirectlybykeywordmatchingisanareaofresearchfocus.Inthispa—per,aretrievalmodelwas
4、proposed,whichenableskeywordsearchforRDFgraph.First,fortheimprovementofqueryefficiency,analgorithmnamedISGR(anlterativewaytoSubGraphRetrieva1)wasproposed,inwhichquerykeywordscanbematchedwithsubgraphsfromRDFdatagraph,andacollectionofsubgraphswhichshouldbeuniqueandmaxi—m
5、alisgot.Next,inordertosolvetheproblemsofredundantresultsanddeviationthatfrequentlyemergeinkeywordsearch,amixturerankingmodel(SimLM)wasproposed,whichconsidersthestructuralinformationbetweenkeywordgraphandresultgraph,andmixsstatistica1languagemode1.Anumbersofcontrastexpe
6、rimentsovertwokindsofopensourcerealdatasetsprovethattheretrievalandrankingmodelproposedinthispaperoutperformswell-knowntech—niquesinthefieldofconsistencyandrelevance.KeywordsRDFdatagraph,Keywordsearch,Subgraph,Similaritymatrix,Statisticallanguagemodel表1某電影知識(shí)庫(kù)中的一些RDF元組片
7、段1引言資源描述框架(ResourceDescriptionFramework,RDF)是對(duì)語(yǔ)義數(shù)據(jù)進(jìn)行描述的標(biāo)準(zhǔn),正被廣泛應(yīng)用于元數(shù)據(jù)的描述及語(yǔ)義網(wǎng)中。眾多機(jī)構(gòu)和項(xiàng)目均采用RDF表達(dá)元數(shù)據(jù),例如Wikipedia、DBLP。豐富的RDF數(shù)據(jù)使構(gòu)建大規(guī)模知識(shí)庫(kù)成為現(xiàn)實(shí),如IBM智慧地球、Freebase知識(shí)庫(kù)等。RDF數(shù)據(jù)由主體(Subject,S)、謂詞(Predicate,P)和客體(Object,0)三元組組成。RDF數(shù)據(jù)圖(簡(jiǎn)稱RDF圖)作為RDF數(shù)據(jù)最直觀的表現(xiàn)方式,包含兩個(gè)結(jié)點(diǎn)與連接結(jié)點(diǎn)的有向邊,分別與三元組中的主體、客
8、體和謂詞相對(duì)應(yīng),邊的方向由主體指向客體。表l表示一系列從某電影知識(shí)庫(kù)中得到的RDF三元組集合,圖1以RDF數(shù)據(jù)圖的形式描述了表1中的RDF三元組。到稿日期:2014—06—17返修日期:2014—07—21本文受河南省國(guó)際科技合作項(xiàng)目