資源描述:
《基于區(qū)間編碼的XML數(shù)據(jù)壓縮方法.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第1O卷第8期中國科技論文Vo1.1ONo.82015年4月CHINASCIENCEPAPERApr.2015基于區(qū)間編碼的XML數(shù)據(jù)壓縮方法高???,魏祥麗。,李華昱。(1.q-國石油天然氣集團(tuán)公司油氣儲(chǔ)運(yùn)重點(diǎn)實(shí)驗(yàn)室,河北廊坊065000;2.北華航天工業(yè)學(xué)院圖書館,河北廊坊065000;3.中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,山東青島266580)摘要:針對(duì)現(xiàn)有XML數(shù)據(jù)壓縮方法在壓縮數(shù)據(jù)上不支持有效連接操作問題,提出采用區(qū)間編碼的壓縮方法(regionencoding—basedXMLdatacompressionm
2、ethod,REXI~)對(duì)XML數(shù)據(jù)中的節(jié)點(diǎn)進(jìn)行區(qū)間編碼,實(shí)現(xiàn)結(jié)構(gòu)連接;提出相同子樹的概念和合并相同子樹的方法,建立一種支持有效連接操作的存儲(chǔ)模型,實(shí)現(xiàn)XML數(shù)據(jù)壓縮,同時(shí)解決在壓縮數(shù)據(jù)上不支持有效連接操作的問題;最后,以壓縮率、壓縮時(shí)間、解壓時(shí)間及查詢性能作為衡量標(biāo)準(zhǔn),將REXDC與XGrind、XPress和XQzip算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果證明,REXDC具有較好的壓縮性能和查詢性能。關(guān)鍵詞:XML;相同子樹;數(shù)據(jù)壓縮;區(qū)間編碼;結(jié)構(gòu)連接中圖分類號(hào):P315.69文獻(xiàn)標(biāo)志碼:A文章編號(hào):2095~2783(2015)08—
3、0905—07Investigationofregionencoding-basedXMLdatacompressionmethodGaoHaikangj,WeiXiangli,LiHuayu。(1.KeyLaboratoryofOil&GasStorageandTransportation,ChinaNationalPetroleumCorporation,Langfang,Hebei065000,China;2.Library,NorthChinaInstituteofAerospaceEngineering,Langfa
4、ng,Hebei065000,China;3.CollegeofComputer&CommunicationEngineering,ChinaUniversityofPetroleum(EastChina),Oingdao,Shandong266580China)Abstract:ExistingXMLdatacompressionsdonotsupporteffectivestructuraljoinOilcompresseddata.Anewcompressor-REXIX;isproposed,whichencodese
5、achnodeinXMLdocumentwithregionencodingandrealizesthestructureconnection.ThedeftnitionandmergingmethodoftheSameSubTree(SST)areproposed.Astoragemodelisdesignedtosupportefectivejoinoperation.Finally,theREXDCcomparedwithXGrind,XPressandXQzip,whichtakescompressionratio,c
6、ompressionanddecompressiontimeasameasure.TheresultshowsthatREXI~hasgoodcompressionperformanceandqueryefficiency.Keywords:XML;SameSubTree;datacompression;regionencoding;structuraljoin近年來,XML技術(shù)的應(yīng)用日趨廣泛,隨著數(shù)據(jù)塊,利用HashTable對(duì)塊數(shù)據(jù)進(jìn)行訪問。XQzip的量越來越大,其容量也隨之增加,為了節(jié)省存儲(chǔ)空壓縮率接近XMi11,查詢
7、的效率也較高,并且支持復(fù)間、縮減網(wǎng)絡(luò)帶寬負(fù)擔(dān),XML數(shù)據(jù)壓縮已成為熱點(diǎn)雜的XPath查詢,缺點(diǎn)是查詢時(shí)需要遍歷結(jié)構(gòu)索引研究領(lǐng)域,目前國內(nèi)外諸多學(xué)者取得了不少的科研樹,當(dāng)遇到帶有“//”軸的查詢表達(dá)式時(shí),查詢效率明成果。顯下降。XQueCc將對(duì)XML文檔的操作與數(shù)據(jù)庫XMillEll_是XML專用壓縮技術(shù)的最早實(shí)踐,具技術(shù)相結(jié)合,形成了一種自適應(yīng)的壓縮器,支持復(fù)雜有較高的壓縮比,但是其壓縮粒度為整個(gè)文檔,所以的XPath查詢,但是壓縮過程中會(huì)產(chǎn)生許多用于保必須先全部解壓才能進(jìn)行查詢。XGrindE]是第1個(gè)存結(jié)構(gòu)信息及指向單獨(dú)壓
8、縮的數(shù)據(jù)項(xiàng)信息的指針,支持查詢的XML數(shù)據(jù)壓縮方法,經(jīng)XGrind壓縮的引起極大的空間開銷。SSTQC_6]去除XML數(shù)據(jù)中XML文檔可保持原有的數(shù)據(jù)結(jié)構(gòu),支持部分解壓縮的重復(fù)路徑,可有效簡化XML數(shù)據(jù)結(jié)構(gòu),但是查詢,但是XGrind執(zhí)行壓縮時(shí)需要掃描XML文檔SSTQC只支