基于網(wǎng)格的deep web數(shù)據(jù)集成系統(tǒng)研究

基于網(wǎng)格的deep web數(shù)據(jù)集成系統(tǒng)研究

ID:11693495

大?。?16.00 KB

頁數(shù):5頁

時間:2018-07-13

基于網(wǎng)格的deep web數(shù)據(jù)集成系統(tǒng)研究_第1頁
基于網(wǎng)格的deep web數(shù)據(jù)集成系統(tǒng)研究_第2頁
基于網(wǎng)格的deep web數(shù)據(jù)集成系統(tǒng)研究_第3頁
基于網(wǎng)格的deep web數(shù)據(jù)集成系統(tǒng)研究_第4頁
基于網(wǎng)格的deep web數(shù)據(jù)集成系統(tǒng)研究_第5頁
資源描述:

《基于網(wǎng)格的deep web數(shù)據(jù)集成系統(tǒng)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、基于網(wǎng)格的DeepWeb數(shù)據(jù)集成系統(tǒng)研究詹青?崔賓閣(山東科技大學(xué)信息科學(xué)與工程學(xué)院,山東青島266510)????摘?要 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,DeepWeb已成為網(wǎng)絡(luò)信息資源的主要組成部分,且具有異構(gòu)、動態(tài)、數(shù)量大等特點。必須要對DeepWeb數(shù)據(jù)進(jìn)行大規(guī)模集成才能有效地利用DeepWeb資源。在分析網(wǎng)格計算特點的基礎(chǔ)上,提出了基于網(wǎng)格的DeepWeb數(shù)據(jù)集成系統(tǒng)框架并作了詳細(xì)的技術(shù)分析與研究。系統(tǒng)的特點是充分利用網(wǎng)格高效的分布式處理能力達(dá)到為用戶有效提供集成的DeepWeb數(shù)據(jù)資源的目的。???關(guān)鍵詞 DeepWeb;網(wǎng)格;OGSA-DAI;

2、數(shù)據(jù)集成?1 引言???根據(jù)用戶獲取Web信息資源方式的不同,人們把Web分為SurfaceWeb和DeepWeb兩類。SurfaceWeb是指能夠通過傳統(tǒng)搜索引擎索引的以超鏈接可達(dá)的靜態(tài)頁面或資源的集合,DeepWeb是一個與SurfaceWeb相對應(yīng)的概念,最初由Dr.JillEllsworth于1994年提出,指那些存儲在Web數(shù)據(jù)庫中的動態(tài)信息資源集合,其內(nèi)容不能通過傳統(tǒng)搜索引擎索引也不能通過超鏈接訪問,只能通過填寫表單(Form)提交查詢時才會由Web服務(wù)器把動態(tài)生成的頁面返回給訪問者。???DeepWeb的規(guī)模大約是SurfaceWeb

3、的400~500倍,并且仍在高速增長。據(jù)美國伊利諾伊大學(xué)計算機科學(xué)系BinHe等人2004年7月發(fā)表的一份調(diào)研報告,全球DeepWeb已有大約30.7萬個站點、45萬個數(shù)據(jù)庫和125.8萬個界面,并且持續(xù)快速增長,2000年到2004年期間增長了3~7倍。到2006年初,僅中國的DeepWeb就有約24,000個站點,28,000個后臺數(shù)據(jù)庫和74,000個查詢接口。DeepWeb已成為網(wǎng)絡(luò)信息資源的主要組成部分,且具有異構(gòu)、動態(tài)、數(shù)量大等特點,以手工的方式難以對其加以有效的利用,必須對DeepWeb數(shù)據(jù)進(jìn)行集成即以自動的方式才能完成對DeepWe

4、b信息的有效利用。鑒于DeepWeb的特點設(shè)計了一個基于網(wǎng)格的DeepWeb數(shù)據(jù)集成系統(tǒng),以便充分利用網(wǎng)格高效的分布式處理能力為用戶有效地提供集成的DeepWeb數(shù)據(jù)資源。2 相關(guān)知識與研究背景???網(wǎng)格概念產(chǎn)生于20世紀(jì)90年代中期的美國,它借鑒電力網(wǎng)的概念,期望能夠像使用電力一樣方便地使用分布在網(wǎng)絡(luò)上的豐富資源,網(wǎng)格的本質(zhì)特征是分布,與傳統(tǒng)分布式計算相比,網(wǎng)格計算最大的特點就是能夠在非集中控制的環(huán)境中最大程度地實現(xiàn)資源共享,滿足用戶對高性能計算的要求。網(wǎng)格的發(fā)展目標(biāo)是要將整個互聯(lián)網(wǎng)整合成為巨大的超級虛擬計算機,對計算資源、存儲資源、數(shù)據(jù)資源、通

5、信資源、軟件資源、信息資源等進(jìn)行全面共享,為用戶提供科學(xué)計算、數(shù)據(jù)存儲、信息獲取、遠(yuǎn)程控制等各種高性能網(wǎng)絡(luò)服務(wù),最大限度地提高網(wǎng)絡(luò)資源利用率。網(wǎng)格作為一種新的計算基礎(chǔ)設(shè)施,具有分布性、自治性、異構(gòu)性、動態(tài)性等特點。???網(wǎng)格體系結(jié)構(gòu)是關(guān)于如何建造網(wǎng)格的技術(shù),它描述了網(wǎng)格系統(tǒng)的基本組件及其功能,以及各個組件之間的相互關(guān)系和網(wǎng)格系統(tǒng)的運行機制。網(wǎng)格體系結(jié)構(gòu)經(jīng)歷了一個逐步演進(jìn)的過程。從最初的五層沙漏結(jié)構(gòu)到后來,在以IBM為代表的工業(yè)界的影響下,全球網(wǎng)格論壇GGF于2002年給出的OGSA(OpenGridServicesArchitecture,開放網(wǎng)格

6、服務(wù)體系結(jié)構(gòu)),首次在網(wǎng)格體系結(jié)構(gòu)中引入了WebService技術(shù),但OGSA中服務(wù)所指的內(nèi)容相對于五層沙漏結(jié)構(gòu)更加廣泛。GGF同時給出了OGSI(OpenGridServicesInfrastructure,開放網(wǎng)格服務(wù)基礎(chǔ)設(shè)施)作為OGSA的實施標(biāo)準(zhǔn)。但OGSI過分強調(diào)網(wǎng)格服務(wù)和Web服務(wù)的差別,將資源狀態(tài)封裝在服務(wù)中,導(dǎo)致了網(wǎng)格服務(wù)不能與Web服務(wù)很好地融合在一起。為了解決OGSI和Web服務(wù)的矛盾,Globus聯(lián)盟、IBM和HP于2004年初共同提出了WSRF(WebServiceResourceFramework,Web服務(wù)資源框架),W

7、SRF作為OGSA的另一種實施標(biāo)準(zhǔn),采用“有狀態(tài)資源,無狀態(tài)服務(wù)”的定義,將網(wǎng)格服務(wù)演變成了Web服務(wù)和資源文檔兩部分,對現(xiàn)有的Web服務(wù)具有良好的兼容性。WSRF的出現(xiàn)標(biāo)志著側(cè)重科學(xué)活動的網(wǎng)格計算開始轉(zhuǎn)向面向服務(wù)的信息網(wǎng)格。WSRFvl.2規(guī)范己于2006年4月3日被批準(zhǔn)為OASIS(OrganizationfortheAdvancementofStructuredInformationStandards,結(jié)構(gòu)化信息標(biāo)準(zhǔn)促進(jìn)組織)標(biāo)準(zhǔn)。???網(wǎng)格中間件向人們提供最基本、最核心的網(wǎng)格計算功能,它是構(gòu)建網(wǎng)格環(huán)境所必需的基礎(chǔ)資源和服務(wù)。本文的研究應(yīng)用了

8、兩種網(wǎng)格中間件:Globus網(wǎng)格中間件和OGSA-DAI網(wǎng)格中間件。Globus采用模塊化設(shè)計方式開發(fā)了能在各種平臺上運行

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。