資源描述:
《deep web數(shù)據(jù)集成中查詢轉(zhuǎn)換的不確定性》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、DeepWeb集成服務(wù)的不確定模式匹配姜芳艽孟小峰賈琳琳(中國人民大學(xué)信息學(xué)院北京100872)摘要:隨著DeepWeb的迅猛發(fā)展,從高度自治、異構(gòu)及動(dòng)態(tài)變化的Web數(shù)據(jù)庫中,為用戶提供高質(zhì)量的數(shù)據(jù)逐漸成為當(dāng)前DeepWeb集成服務(wù)的一個(gè)研究熱點(diǎn)。在大部分Web數(shù)據(jù)庫只能通過查詢接口為用戶提供服務(wù)的前提下,如何建立用戶請(qǐng)求與集成查詢接口模式之間以及集成查詢接口模式與Web數(shù)據(jù)庫查詢接口模式之間的匹配關(guān)系,是DeepWeb集成服務(wù)中進(jìn)行合理的用戶請(qǐng)求轉(zhuǎn)換的關(guān)鍵。之前的相關(guān)工作都是尋找最佳的匹配結(jié)果,回避匹配的不確定性,丟棄了可能有價(jià)值的其他匹配結(jié)果。本文首先剖析了請(qǐng)求轉(zhuǎn)
2、換中模式匹配的不確定性,提出了數(shù)字類型的相似度計(jì)算方法,給出了進(jìn)行數(shù)字類型的模式匹配的有效的剪枝方法以及數(shù)據(jù)類型驅(qū)動(dòng)的模式匹配優(yōu)化方法,并在此基礎(chǔ)上提出了一種基于相似度計(jì)算的不確定性模式匹配方法,最后通過大量的實(shí)驗(yàn)證明了該方法的有效性。關(guān)鍵詞:DeepWeb;集成服務(wù);相似度;模式匹配;不確定性中圖法分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:AUncertainSchemaMatchinginDeepWebIntegrationServiceJIANGFang-JiaoMENGXiao-FengJIALin-Lin(SchoolofInformation,RenminUniver
3、sityofChina,Beijing,100872)Abstract:WithincreasingofDeepWeb,providinghighqualitydatafromautonomous,heterogeneousanddynamicWebdatabasestousersisbecomingahottopicinrecentresearchofDeepWebintegrationservice.Howtogeneratethereasonableschemamatchingbetweenthekeywordsoftheuserrequestandschema
4、ofintegratedinterfaceaswellasbetweentheschemaofintegratedinterfaceandthatofWebdatabaseinterfaceisessential.Therelatedworksaboutschemamatchingaregeneratingthebestschemamatchingwhichslideoveritsuncertainty.Inthispaper,weanalyzetheuncertaintyofschemamatching,andthenproposeaseriesofsimilari
5、tymeasures.Toreducethecostofexecution,weproposethetype-basedoptimizationmethodandschemamatchingpruningmethodofnumericdata.Basedonaboveanalysis,weproposetheuncertainschemamatchingmethod.Theexperimentsprovetheeffectivenessandefficiencyofourmethod.Keywords:DeepWeb;integrationservice;simila
6、rity;schemamatching;uncertainty本課題得到國家自然科學(xué)基金項(xiàng)目(60573091)、國家863高技術(shù)項(xiàng)目(2007AA01Z155)、國家基礎(chǔ)研究與發(fā)展“語義網(wǎng)格”項(xiàng)目(2003CB317000)和新世紀(jì)優(yōu)秀人才支持計(jì)劃的資助。姜芳艽,女,1971年生,博士研究生,主要研究方向?yàn)閃eb數(shù)據(jù)管理與集成。Email:jiangfj@gmail.com。孟小峰,男,1964年生,教授,博士生導(dǎo)師,主要研究方向?yàn)閃eb數(shù)據(jù)管理、XML數(shù)據(jù)庫、移動(dòng)數(shù)據(jù)管理等。賈琳琳,女,1984年生,碩士研究生,主要研究方向?yàn)閃eb數(shù)據(jù)管理與集成。1引言近年來,D
7、eepWeb[1]的發(fā)展非常迅猛,2004年大約有450,000個(gè)DeepWeb數(shù)據(jù)源,這些分布自治的資源集合的數(shù)據(jù)量是SurfaceWeb的500倍以上,而且目前仍呈指數(shù)級(jí)的增長趨勢。為了使用戶快速地獲得高質(zhì)量的數(shù)據(jù),DeepWeb集成服務(wù)應(yīng)運(yùn)而生了。DeepWeb集成服務(wù)是將Web上通過查詢接口提供Web服務(wù)的結(jié)構(gòu)化數(shù)據(jù)源按領(lǐng)域形成為統(tǒng)一服務(wù)的過程,其基本框架如圖1所示。對(duì)于用戶而言,集成服務(wù)是透明的,即用戶無須再面對(duì)數(shù)百萬個(gè)Web服務(wù),不需要關(guān)心所需要的數(shù)據(jù)存儲(chǔ)在哪里,更不需要了解如何獲取這些數(shù)據(jù)。用戶只需在類似于傳統(tǒng)的基于關(guān)鍵字搜索引擎的查詢