資源描述:
《基于XML 模式和RDF 的異構(gòu)數(shù)據(jù)集成框架研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第27卷第3期計(jì)算機(jī)應(yīng)用與軟件Vol27No.32010年3月ComputerApplicationsandSoftwareMar.2010基于XML模式和RDF的異構(gòu)數(shù)據(jù)集成框架研究112劉興波蔡鴻明徐博藝1(上海交通大學(xué)軟件學(xué)院上海200240)2(上海交通大學(xué)安泰經(jīng)濟(jì)與管理學(xué)院上海200052)摘要隨著Internet網(wǎng)絡(luò)的普及和各種數(shù)據(jù)的爆炸涌現(xiàn),如何有效地集成各種異構(gòu)數(shù)據(jù)并對(duì)其進(jìn)行分析處理是電子商務(wù)領(lǐng)域中的一個(gè)關(guān)鍵性難題。提出一種基于XML和資源描述框架RDF(ResourceDescriptionFramework)的中間件-包裝器架構(gòu)的
2、解決方案,用XMLSchema來(lái)表示異構(gòu)數(shù)據(jù)源的數(shù)據(jù)模式,并通過(guò)RDF建立模式間的映射關(guān)系實(shí)現(xiàn)數(shù)據(jù)集成。還基于該方案實(shí)現(xiàn)了一個(gè)通用異構(gòu)數(shù)據(jù)集成框架原型,在實(shí)驗(yàn)中該框架能較好地解決數(shù)據(jù)集成中的數(shù)據(jù)源多樣性問(wèn)題和模式間語(yǔ)義沖突問(wèn)題,并具有良好的靈活性。關(guān)鍵詞 XMLSchema?。遥模啤‘悩?gòu)數(shù)據(jù)集成ONFRAMEWORKFORHETEROGENEOUSDATAINTEGRATIONBASEDONXMLSCHEMAANDRDF112LiuXingbo?。茫幔椋龋铮睿纾恚椋睿纭。兀酰拢铮椋保ǎ樱悖瑁铮铮欤铮妫樱铮妫簦鳎幔颍?,ShanghaiJiaotong
3、University,Shanghai200240,China)2(AntaiCollegeofEconomicsandManagement,ShanghaiJiaotongUniversity,Shanghai200052,China)Abstract WiththepopularisationoftheInternetandtheexplosiveaccumulationofvariouskindsofdata,howtoeffectivelyintegrateandanalyzevariouskindsofheterogeneousdatabe
4、comesacriticalprobleminthefieldofEcommerce.Inthispaper,weproposeasolutionwithmediatorwrapperarchitecturebasedonXMLandRDF.ThisarchitectureusesXMLschematorepresentthedatamodelsofheterogeneousdatasourcesandimplementsthedataintegrationbyestablishingthemappingrelationshipbetweenth
5、esemodelswithRDF.Inthispaperwealsoimplementaprototypeofthegeneralheterogeneousdataintegrationframeworkonthebasisoftheabovesolution,inexperimenttheframeworkisdemonstratedtobeabletowellsolvetheproblemsofdiversityindatasourcesandsemanticconflictbetweenmodelsindataintegrationprocess
6、withconsiderableflexibility.Keywords ?。兀停蹋樱悖瑁澹恚帷。遥模啤。龋澹簦澹颍铮纾澹睿澹铮酰螅洌幔簦幔椋睿簦澹纾颍幔簦椋铮顬榻鉀Q這一問(wèn)題,本文提出了一種基于XMLSchema和[3]0 概述RDF的中間層/包裝器體系的異構(gòu)數(shù)據(jù)集成框架。集成原理是在構(gòu)建集成系統(tǒng)時(shí)將原來(lái)異構(gòu)的數(shù)據(jù)模式作適當(dāng)?shù)霓D(zhuǎn)換,消[4]在信息爆炸的時(shí)代,如何從浩如煙海的數(shù)據(jù)中不重不漏地除數(shù)據(jù)源間的異構(gòu)性,映射成全局模式。使用戶能夠按照全取得需要的數(shù)據(jù),是一個(gè)很有難度的問(wèn)題。數(shù)據(jù)集成是解決這局模式透明地訪問(wèn)各數(shù)據(jù)源的數(shù)據(jù)。全局模式描述了數(shù)據(jù)源共個(gè)問(wèn)題
7、的途徑之一,其核心任務(wù)就是要將互相關(guān)聯(lián)的異構(gòu)數(shù)據(jù)享數(shù)據(jù)的結(jié)構(gòu)、語(yǔ)義及操作等。用戶在全局模式的基礎(chǔ)上同數(shù)源集成到一起,使用戶能夠以透明的方式訪問(wèn)這些數(shù)據(jù)源。目據(jù)集成系統(tǒng)進(jìn)行交互,由數(shù)據(jù)集成系統(tǒng)處理這些請(qǐng)求。前,從集成的方法上來(lái)說(shuō)主要有兩種:1)模式集成法;2)數(shù)據(jù)復(fù)[1]制法。但后一種方法因?yàn)閷?shí)時(shí)性差,成本高昂,而且很多情1 基于RDF的XML數(shù)據(jù)集成原理況下由于不同數(shù)據(jù)的分布地理位置、不同企業(yè)間的政策規(guī)矩而無(wú)法實(shí)現(xiàn)。因此模式集成法是目前學(xué)術(shù)界研究的主要方向。隨1.1 關(guān)鍵技術(shù)著XML及其相關(guān)技術(shù)和標(biāo)準(zhǔn)的發(fā)展,XML已經(jīng)成為Internet上XMLSch
8、ema是W3C推薦的XML的標(biāo)準(zhǔn)模式,用于定義和一種重要的信息交換標(biāo)準(zhǔn)和數(shù)據(jù)表示技術(shù)。由于XM