資源描述:
《基于spark的rdf數(shù)據(jù)top-k查詢計算研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、’f'‘-.'、‘-v;:護'’’.-巧抗而,vv.、."?’.,‘'-..’’.?V-.:.吁.’.:?、*'一>-.V.爭‘V.氣辛..*。-.--,〇?.’;片'\'X護?:一\V‘、-'‘、'一-,、.::;,心-.巧打心謂.‘'產(chǎn)-r,;人vVVV戶把節(jié)、松'-'■"■‘-心?:>:,.非訴;W.’I...VV,Y;姻搖..''、■'..*盧-.-\二腫寧戶t心;分類號TP18一,學號201313703014山姿.學校代碼10488
2、/密級..售;'進身,八‘*''、.‘味:巧站';/秋誘?受義轅,誠繼—'.’主襄4猶我解把記績皆C.幫:占歌鱗咚姐矣潭海;,乂胃碩±學位論文胃—''-.咕./;費基于Spark的RDF數(shù)據(jù)化p-k查詢£起n計算研究?、?-W'(.—,、?,.1、 ̄…J'’、...、、.心'護,.I.'。.年扣.':二,.',.,如,.^咕.托聲■’■‘J-I■-t^.-V:^一一.—‘如學位申請人:肖睜榮學科專業(yè):
3、軟件工程—分—^:,:V>一心嚴r::顧指導教師進廣;U1.1:八::心1日:2016521曰答期年£辯月!茄C...-,.化’-‘H.'V'產(chǎn),二'.誠....:.^記纖錯紙巾1、\訴詩讓帶堿媒V哨ADissertationSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterinEngineeringReseachonOptimizingTop-kJoinQueriesBasedon
4、SparkMasterCandidate:ZhengrongXiaoMajor:SoftwareEngineeringSupervisor:Prof.JinguangGuWuhanUniversityofScienceandTechnologyWuhan,Hubei430081,P.R.ChinaMay21,2016武漢科錶大學<驕発藻擎卷絶文鎖新錐聲辯本入鄭重齊嗎t攝盤變韶學輕途文是本入在導師鷄導T,鑛立潘巧硏究所取縛靡處1。rr定審B經(jīng)注興哥用觀巧容或?qū)俸想y研発共轉(zhuǎn)t藏敏I雜辨,本涂文不每含儘錦其鞭個A或簾誰己經(jīng)
5、發(fā)襲或鱗寫遠酶作蟲成粟。猶本文廚礙究儀連靈要被獻煎個入和藥雖,切哲在克牽巧f痛方式掠嚼。牽簿學位論文與資辯若宵不實么進?,皋人廣避鎮(zhèn)掘關貴僅。:;譴交難箸盤名金蘭泉全…目縷j.琴齋堯生學僮絶文賺毅使馬授較蘆類奉叢文齡驟繁戚薬較遮毀轉(zhuǎn)技大學薪茍,其魏究內(nèi)容不攝謎其趕孽t觀無義嚴褒。本人寃全了瓣武誤轉(zhuǎn)技大學有關縣窗、ft強學隨t義錢撰定,轉(zhuǎn)鑛擎轅鑲觀弊肉猶關離口C武獸羈技大學關于研究(按騷堯?qū)W擅論文收裁I:偉轉(zhuǎn)魏速!拱巧魄交論文韓變醇件郝電子厳私允薄論交被查鐵鄭簿讓,同愈學校蔣本絶義的全諫或識分巧容
6、編乂學毯誡巧饒讀蠢截關數(shù)據(jù)庫造巧撿索蔣對舞服務。獲文作密纖;;M:霜導教輝難吟.一0攤:I摘要近年來,語義Web發(fā)展迅猛,RDF數(shù)據(jù)也得了廣泛的支持與研究。隨著RDF數(shù)據(jù)的規(guī)模越來越大,傳統(tǒng)的集中式環(huán)境下針對RDF數(shù)據(jù)的查詢研究越來越無法適應數(shù)據(jù)查詢領域的需求,特別是針對RDF數(shù)據(jù)的top-k查詢。隨著分布式領域的逐步發(fā)展,具有海量存儲能力以及并行計算能力的分布式系統(tǒng)逐漸成為解決這類問題的研究熱點。而Spark分布式系統(tǒng)恰恰是其中的佼佼者。本文基于Spark分布式計算系統(tǒng)以及HBase分布式存儲系統(tǒng),對應用于大規(guī)
7、模RDF數(shù)據(jù)存儲以及top-k查詢算法進行了設計與研究。本文分析了傳統(tǒng)RDF數(shù)據(jù)存儲模式的優(yōu)缺點,設計并實現(xiàn)了適用于top-k查詢的基于HBase存儲特點的RDF存儲索引結構?;谶@種存儲模式并借鑒于傳統(tǒng)top-k查詢處理技術的特點,提出了一種分布式系統(tǒng)下的top-k查詢方案STA查詢算法,致力于減少算法運行過程中RDF數(shù)據(jù)的連接操作。在此基礎上并根據(jù)Spark分布式系統(tǒng)數(shù)據(jù)的處理特點,本文改進STA算法提出了一種新的查詢方案SSJA查詢算法,致力于減少對中間數(shù)據(jù)的排序相關的操作。此外,本文還搭建了HBase分布式存儲環(huán)境以及Spar
8、k分布式計算環(huán)境,實現(xiàn)了上述兩種實驗方案并進行了測試。實驗結果證明,SSJA算法在性能以及適用性上都優(yōu)于STA算法。關鍵詞:Spark;Top-k查詢;分布式;RDF數(shù)據(jù)IAbstractInrecentyears,th