資源描述:
《高擴(kuò)展rdf數(shù)據(jù)存儲系統(tǒng)的研究 (1)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeoftheMasterofEngineeringResearchonHighlyScalableRDFDataStorageSystemCandidate:LiuPuMajor:ComputerArchitectureSupervisor:Assoc.Prof.YuanPingpengHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaJanuar
2、y,2012獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到,本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編
3、入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在_____年解密后適用本授權(quán)書。本論文屬于不保密□。(請?jiān)谝陨戏娇騼?nèi)打“√”)學(xué)位論文作者簽名:指導(dǎo)教師簽名:日期:年月日日期:年月日華中科技大學(xué)碩士學(xué)位論文摘要由于RDF(ResourceDescriptionFramework)數(shù)據(jù)具有表達(dá)靈活,數(shù)據(jù)交換方便等優(yōu)點(diǎn),其數(shù)據(jù)量在以驚人的速度增長。傳統(tǒng)的RDF數(shù)據(jù)存儲系統(tǒng)或以關(guān)系數(shù)據(jù)庫為存儲后端,或以本地存儲方式存儲數(shù)據(jù),但是這些存儲方式在存儲大規(guī)模的RDF數(shù)據(jù)時都面臨著擴(kuò)展性問題。在存儲大規(guī)模RDF數(shù)據(jù)
4、時,需要降低數(shù)據(jù)的存儲空間并加速查詢處理。但目前提出的存儲方式不夠緊湊且存在大量的冗余數(shù)據(jù),導(dǎo)致在生成查詢計(jì)劃和執(zhí)行過程中消耗了大量的時間。高擴(kuò)展的RDF數(shù)據(jù)存儲系統(tǒng)TripleBit旨在為大規(guī)模RDF數(shù)據(jù)提供一個高效的存儲和查詢方案。利用RDF數(shù)據(jù)特點(diǎn),系統(tǒng)將RDF數(shù)據(jù)表達(dá)成一個位圖矩陣。為了降低數(shù)據(jù)占用空間,在數(shù)據(jù)存儲時針對各個數(shù)據(jù)表特征和作用設(shè)計(jì)了相應(yīng)的壓縮算法。在底層具體存儲時采用了基于內(nèi)存的存儲方式降低了系統(tǒng)在存儲和查詢時的I/O開銷,并采用了數(shù)據(jù)分塊的存儲方法,既使得存儲管理方便又使得存儲結(jié)構(gòu)緊湊,加速了查詢處理。為了提高RDF
5、數(shù)據(jù)查找的速度,系統(tǒng)設(shè)計(jì)了兩類索引分別加速系統(tǒng)數(shù)據(jù)塊的定位和謂詞未知的查詢處理。在查詢RDF數(shù)據(jù)時,系統(tǒng)基于啟發(fā)式規(guī)則簡單有效地生成查詢計(jì)劃。在執(zhí)行查詢計(jì)劃時,根據(jù)查詢類型采用不同的執(zhí)行策略,并利用并行執(zhí)行子系統(tǒng)提高連接查詢操作的效率。對于多變量的查詢計(jì)劃,采用二步執(zhí)行策略減少查詢過程中產(chǎn)生的中間結(jié)果,并動態(tài)地調(diào)整查詢計(jì)劃。與目前流行RDF數(shù)據(jù)存儲系統(tǒng)RDF-3X進(jìn)行性能對比測試的結(jié)果表明,在存儲空間上比RDF-3X至少降低了40%,在查詢性能上比RDF-3X至少提升了3倍。實(shí)驗(yàn)進(jìn)一步表明,TripleBit所采用的查詢計(jì)劃生成方式和索引技
6、術(shù)對查詢處理性能的提升有很大的幫助。關(guān)鍵詞:資源描述框架,語義數(shù)據(jù)表達(dá),查詢處理,數(shù)據(jù)壓縮,索引I華中科技大學(xué)碩士學(xué)位論文AbstractAsRDF(ResourceDescriptionFramework)dataisflexibletobeexpressedandeasytobeinterchanged,thevolumeofRDFdataisincreasingatanamazingspeed.TraditionalRDFstoragesystemseitheruseRDBMSasstoragebackendoradoptnative
7、storage.However,thesemethodsdonotfocusonthescalability.Therearesomesystemswhichsacrificestoragespacetoovercomethisproblem.However,theredundantdataandnotcompactstorageschemeresultinthelowefficiencyinthequeryplangenerationandqueryexecutionperiods.TripleBitaimstoproposeaneffi
8、cientmethodindatastorageandqueryprocessingforlargescaleRDFdatainseveralaspects.Duetothefe