資源描述:
《分布式RDF數(shù)據(jù)處理架構(gòu)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分布式RDF數(shù)據(jù)處理架構(gòu)研究TheResearchofDistributedRDFDataProcessingArchitecture工程領(lǐng)域:計(jì)算機(jī)技術(shù)作者姓名:馮佳穎指導(dǎo)教師:馮志勇教授企業(yè)導(dǎo)師:郭曉和正高工天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院二零一七年十一月摘要資源描述框架(resourcedescriptionframework,RDF)作為語義網(wǎng)提出的數(shù)據(jù)規(guī)范,現(xiàn)已在生活中得到了廣泛應(yīng)用,這導(dǎo)致RDF數(shù)據(jù)量暴增。雖然當(dāng)前的分布式RDF數(shù)據(jù)處理架構(gòu)能滿足SPARQL查詢的要求,但局限于改進(jìn)存儲(chǔ)結(jié)構(gòu)和索引
2、結(jié)構(gòu)等方面,高效地執(zhí)行RDF查詢?nèi)允乾F(xiàn)階段研究的重點(diǎn)和難點(diǎn)。本文分析了大量分布式RDF數(shù)據(jù)處理系統(tǒng),從架構(gòu)的角度對(duì)分布式SPARQL查詢技術(shù)進(jìn)行綜合的分析,并針對(duì)RDF數(shù)據(jù)的存儲(chǔ)方法和SPARQL查詢策略這兩個(gè)影響性能的關(guān)鍵因素進(jìn)行定義和詳細(xì)分類。最后,通過實(shí)驗(yàn)分析對(duì)主流的引擎性能的影響進(jìn)行定量分析。基于實(shí)驗(yàn)結(jié)果,總結(jié)分布式RDF數(shù)據(jù)處理系統(tǒng)所面臨的挑戰(zhàn)和可能解決方案。結(jié)合上述分析,分布式RDF數(shù)據(jù)處理系統(tǒng)仍存在可改進(jìn)的空間。而且,從硬件角度來看,現(xiàn)有SPARQL查詢的方法均依賴于CPU的計(jì)算能力。近年
3、來,圖像處理單元(graphicprocessingunits,GPU)的發(fā)展提高了圖數(shù)據(jù)處理的性能。與CPU相比,GPU多處理器具有高并發(fā)、易擴(kuò)展以及價(jià)格成本低等優(yōu)勢(shì)。由于CPU處理大規(guī)模RDF數(shù)據(jù)的計(jì)算能力有限,本文考慮使用GPU作為系統(tǒng)計(jì)算能力的補(bǔ)充。本文提出了基于GPU的RDF查詢處理引擎——MapSQ。該系統(tǒng)創(chuàng)新的提出三個(gè)模塊:查詢分割器、基于GPU的MapReduce并行計(jì)算模板和計(jì)算CPU和GPU的資源管理,以減少SPAQRL查詢的響應(yīng)時(shí)間,并在基準(zhǔn)數(shù)據(jù)集LUBM上對(duì)該算法進(jìn)行性能測試,實(shí)
4、驗(yàn)結(jié)果表明該算法顯著優(yōu)于基于CPU架構(gòu)的算法。綜上所述,本文對(duì)于查詢效率低下的現(xiàn)狀,設(shè)計(jì)了基于MapReduce的GPU設(shè)計(jì)了分布式RDF數(shù)據(jù)查詢系統(tǒng)。該系統(tǒng)通過新硬件的加速,大大的提高了系統(tǒng)性能。對(duì)RDF數(shù)據(jù)處理系統(tǒng)中使用硬件加速處理提出了新的嘗試。關(guān)鍵詞:資源描述框架,SPARQL查詢處理,圖像處理單元,MapReduceIABSTRACTRDF(resourcedescriptionframework)describesresourcesandtherelationshipsofthemonthe
5、semanticWeb,whichhasbeenwidelyusedinlife.WiththevolumeofRDFdatarapidlyincreasing,ahighperformancemethodisnecessarytoefficientlyprocessingSPAQRL(simpleprotocolandRDFquerylanguage)queryoverRDFdata.ThispaperanalyzesalargenumberofdistributedRDFdataprocessing
6、engine,andbasedontheanalysisresultsproposedqueryperformanceoptimizationstrategy.WesurveycurrentparallelprocessingapproachesforSPARQLqueriesinRDFdata.Thispaperresearchtheenginesfromthreeaspects:systemarchitectures,RDFdatastoragemanagement,andSPARQLqueryex
7、ecutivestrategies.Weclassifythosearchitectures,respectively.Combiningtheaboveanalyze,mostexistingapproacheshavebeenproposedtoprocessingRDFdata,whichmostlydependoncalculativecapabilitiesofCPU.Inrecentyears,GPU(graphicprocessingunits)hasbeenadoptedtoaccele
8、rategraphdataprocessingwidelyinseveralworks,whichhavebettercomputationalperformance,superiorscalability,andmorereasonableprices.DuetothelimitedcomputationalpowerofCPUsforhandlinglarge-scaleRDFdata,thisarticleconsiderstheus