資源描述:
《基于Hadoop平臺(tái)的XML Twig查詢(xún)處理方法-論文.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第25卷第1期北華航天工業(yè)學(xué)院學(xué)報(bào)Vo1.25No.12015年2月JournalofNorthChinaInstituteofAerospaceEngineerinFeb.2015基于Hadoop平臺(tái)的XMLTwig查詢(xún)處理方法何志學(xué)莊連英斯慶巴拉(北華航天工業(yè)學(xué)院計(jì)算機(jī)與遙感信息技術(shù)學(xué)院,河北廊坊065000)摘要:為解決半結(jié)構(gòu)化XML大數(shù)據(jù)的處理分析問(wèn)題,分析了Twig查詢(xún)結(jié)構(gòu)特點(diǎn)和Hadoop平臺(tái)架構(gòu)特征?;贖adoop平臺(tái),通過(guò)對(duì)XML數(shù)據(jù)的水平切分,設(shè)計(jì)了XML數(shù)據(jù)在HDFS上的分布式存儲(chǔ)策略;將
2、Twig查詢(xún)分解為線性路徑,實(shí)現(xiàn)了基于MapReduce編程模型的并行查詢(xún)方法。最后通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。關(guān)鍵詞:分布式計(jì)算,MapReduce模型,XML數(shù)據(jù),Hadoop平臺(tái)中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1673—7938(2015)01—0024—030引言MapReduce編程框架為核心。云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)應(yīng)用的日益增多和HDFS一般部署在普通的計(jì)算機(jī)組成的集群普及產(chǎn)生了海量的數(shù)據(jù),這些數(shù)據(jù)與傳統(tǒng)的管理信中,以Master/Slave架構(gòu)對(duì)文件系統(tǒng)進(jìn)行管理,其中息系統(tǒng)所產(chǎn)
3、生的關(guān)系型數(shù)據(jù)有很大的不同,其中的NameNode負(fù)責(zé)命名空間管理及數(shù)據(jù)與存儲(chǔ)結(jié)點(diǎn)80%以上都是半結(jié)構(gòu)化E結(jié)構(gòu)化數(shù)據(jù)。XML是之間的映射,DataNode負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)、讀寫(xiě)操作W3C提出的具有自描述性的標(biāo)記語(yǔ)言,通過(guò)工業(yè)界的處理。HDFS中文件以塊的概念存儲(chǔ),默認(rèn)塊的和學(xué)術(shù)界共同的研究、發(fā)展,已成為半結(jié)構(gòu)化數(shù)據(jù)表大小為64MB,為了防止存儲(chǔ)結(jié)點(diǎn)故障,采取多副本示的事實(shí)標(biāo)準(zhǔn),被廣泛應(yīng)用于互聯(lián)網(wǎng)多系統(tǒng)之間數(shù)策略,缺省值為3。MapReduce_5是Google海量數(shù)據(jù)處理的編程模據(jù)的表示、共享、傳輸?shù)取ML數(shù)據(jù)
4、的查詢(xún)語(yǔ)言XPath、XQuerv一般抽象表示為T(mén)wig模式樹(shù)的形型,以“分而治之”的思想,將數(shù)據(jù)處理過(guò)程分為“Map"和“Reduce”兩個(gè)階段,數(shù)據(jù)處理格式定義為式,在單機(jī)小數(shù)據(jù)量情形下的查詢(xún)處理已經(jīng)有了較keyr/value格式,具體過(guò)程如下所示:多的研究,但如何處理較大數(shù)據(jù)量,如TB、PB級(jí)數(shù)Map—list();據(jù),目前還沒(méi)有較好的處理方法,一些典型的研究如Reduce一list().HadoopXML_1系統(tǒng),基于HadooD設(shè)計(jì)并
5、實(shí)現(xiàn)了針MaD函數(shù)處理輸入的key/value對(duì),輸出一系列對(duì)多Twig查詢(xún)處理機(jī)制;ChuQL2擴(kuò)展了XQuery的中間結(jié)果key/value對(duì);Reduce函數(shù)以中間結(jié)果為語(yǔ)言,方便開(kāi)發(fā)者在Hadoop平臺(tái)上基于MapReduce輸入,合并所有具有相同kev值的鍵值對(duì),計(jì)算最終處理XML數(shù)據(jù);MRQL_3]是一種類(lèi)SQL的查詢(xún)語(yǔ)輸出。在Hadoop平臺(tái)上,MapReduce的實(shí)現(xiàn)由一言,在MapReduce框架上處理XML數(shù)據(jù),該語(yǔ)言擴(kuò)個(gè)單獨(dú)的MasterJobTracker和集群中多個(gè)計(jì)算結(jié)展了Hadoo
6、D中的XML輸入格式,根據(jù)查詢(xún)調(diào)整點(diǎn)SlaveTaskTracker組成。MapReduce任務(wù)數(shù)量。1.2XMLTwig查詢(xún)1背景知識(shí)和相關(guān)定義XML數(shù)據(jù)一般表示為樹(shù)的形式,結(jié)點(diǎn)之間關(guān)系1.1Hadoop平臺(tái)表示表示元素一子元素、元素一值、屬性一值之間的HadoopN]是Apache軟件基金會(huì)下的一個(gè)開(kāi)源結(jié)構(gòu)關(guān)系。的分布式計(jì)算平臺(tái),以分布式文件系統(tǒng)HDFS和XML數(shù)據(jù)的查詢(xún)語(yǔ)言XPath、XQuerv中的核心部分可以抽象表示為小枝模式,也即Twig查詢(xún),基金項(xiàng)目:北華航天工業(yè)學(xué)院科研基金項(xiàng)目(KY.2014.
7、09),廊該模式也是一棵樹(shù),“/”表示查詢(xún)結(jié)點(diǎn)之間需要滿(mǎn)足坊市科技支撐計(jì)劃項(xiàng)目(2014011015),校級(jí)科技創(chuàng)新團(tuán)隊(duì)資助“父子關(guān)系”(PC),“//”表示需要滿(mǎn)足“祖孫關(guān)系”項(xiàng)目(XJTD20140)(AD)。如圖l所示,表示選取r結(jié)點(diǎn)的后裔結(jié)點(diǎn)a,收稿日期:2014—10—22作者簡(jiǎn)介:何志學(xué)(1982一),男,碩士,講師,研究方向?yàn)閿?shù)據(jù)且同時(shí)滿(mǎn)足r有b孩子以及a有c、d兩個(gè)孩子。庫(kù)、分布式計(jì)算、軟件工程。Twig模式查詢(xún)的匹配定義為查詢(xún)Q到XML一24—第1期何志學(xué)等:基于Hadoop平臺(tái)的XMLTwi
8、g查詢(xún)處理方法2015年2月文檔樹(shù)T的映射e,滿(mǎn)足:(i)保持結(jié)點(diǎn)標(biāo)記:對(duì)于查規(guī)膜海量數(shù)據(jù)進(jìn)行處理。對(duì)于XMLTwig查詢(xún),本詢(xún)Q中的某一結(jié)點(diǎn)n,label(n)=*或者label(n)=文提出的處理方法是將Twig查詢(xún)分解為線性路徑label(e(n)),這里“*”表示通配符;(ii)保持結(jié)構(gòu)關(guān)查詢(xún),即分解后的子查詢(xún)路徑上沒(méi)有分支結(jié)點(diǎn)。在系,如果Q中兩個(gè)結(jié)點(diǎn)(n1,n2)滿(mǎn)足PC關(guān)系