資源描述:
《基于xml+schema的xml數(shù)據(jù)流壓縮技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、內(nèi)蒙古科技大學(xué)碩士學(xué)位論文摘要隨著現(xiàn)代化社會(huì)逐步邁向信息化,在互聯(lián)網(wǎng)迅速發(fā)展的推動(dòng)下,產(chǎn)生了大量的各種形式的信息。長(zhǎng)期以來(lái)建立的孤立、自主、異構(gòu)的信息已經(jīng)無(wú)法滿足Intemet時(shí)代人們對(duì)這些信息的共享和進(jìn)行數(shù)據(jù)交換的迫切需要。近年來(lái)出現(xiàn)的XML(eXtensiblemarkuplanguage)成為了Intemet以及電子商務(wù)中進(jìn)行數(shù)據(jù)交換和表示事實(shí)上的標(biāo)準(zhǔn),與之相關(guān)的ⅪⅥL數(shù)據(jù)流技術(shù)也相繼出現(xiàn)。XML數(shù)據(jù)流壓縮即是研究的熱點(diǎn)問(wèn)題之一,數(shù)據(jù)流不同于傳統(tǒng)的、靜態(tài)的、持久穩(wěn)定的關(guān)系數(shù)據(jù),它是動(dòng)態(tài)的、快速連續(xù)的,因此傳統(tǒng)的對(duì)XML文檔、數(shù)據(jù)的壓縮方法將不能滿足數(shù)據(jù)流環(huán)
2、境的要求。因?yàn)閭鹘y(tǒng)的壓縮方法一般需要掃描數(shù)據(jù)兩邊甚至多遍來(lái)分析數(shù)據(jù)的結(jié)構(gòu),然后才進(jìn)行壓縮,而此種方式對(duì)于網(wǎng)絡(luò)中的數(shù)據(jù)流而言將造成極大的延遲。因此,如何有效地完成XML數(shù)據(jù)流的壓縮以節(jié)省儲(chǔ)存空間,降低傳輸代價(jià),同時(shí)如果能支持對(duì)壓縮的XML數(shù)據(jù)流的進(jìn)行直接查詢處理以避免解壓縮操作對(duì)系統(tǒng)資源的消耗,成為一個(gè)迫切需要解決的問(wèn)題和研究方向。本文從分析XML數(shù)據(jù)流運(yùn)行環(huán)境的特點(diǎn)和XML數(shù)據(jù)本身結(jié)構(gòu)開(kāi)始,將XMLSchema作為可以提高壓縮效率和壓縮比率的入口。.XMLSchema是W3C于2001年正式推薦使用的“X晰L規(guī)范標(biāo)記語(yǔ)言’’。XMLSchema作為XML的約束,
3、已經(jīng)得到越來(lái)越廣泛的應(yīng)用。在XML數(shù)據(jù)流所滿足的XMLSchema中包括所有XML數(shù)據(jù)流中元素類(lèi)型的定義。所以在數(shù)據(jù)流處理之前,可以先分析XMLSchema,獲取XML數(shù)據(jù)流中出現(xiàn)的結(jié)構(gòu)事件序列,進(jìn)而確定元素事件序列的編碼,完成XML數(shù)據(jù)流的壓縮。這樣雖然不如先進(jìn)行一遍掃描獲得的元素事件序列頻率準(zhǔn)確,但是這種方法不需要掃描數(shù)據(jù)流就可以得到相對(duì)準(zhǔn)確的元素事件序列頻率,壓縮過(guò)程可以只進(jìn)行一遍掃描,適合網(wǎng)絡(luò)的XML數(shù)據(jù)流環(huán)境。最后通過(guò)對(duì)本文提出的壓縮進(jìn)行了測(cè)試實(shí)驗(yàn)和性能分析,從實(shí)驗(yàn)結(jié)果看,此壓縮算法在壓縮效率和壓縮比率上要優(yōu)于傳統(tǒng)算法。關(guān)鍵詞:XML數(shù)據(jù)流;XML模式
4、;動(dòng)態(tài)哈夫曼;解析;壓縮內(nèi)蒙古科技大學(xué)碩士學(xué)位論文AbstractWimthemodeminformationsocietyisgraduallymovingtowardstheIntemet,resultinginalargenumberofvariousformsofinformationdrivenbyrapiddevelopment.Theseisolated,independent,heterogeneousinformationgenerated證alongperiodhavebeenunabletomeettheIntemeteraofspatia
5、linformationsharinganddataexchangeneeds.XML(eXtensiblemarkuplanguage)emerginginrecentyearshasbecometheIntemetande-commercedataexchangeandthatthedefactostandard,theXMLdatastreamtechnology,ThecompressionofXMLdatastreanlisoneofthehotresearches.Datastreamisdifferentfromthetraditional,sta
6、tic,stableandlastingrelationshipbetweenthedata,itisdynamic,fastcontinuous.SothetraditionalcompressionmethodoftheXMLdocument,datacannotmeettherequirementsofthedatastreamenvironment.Thetraditionalcompressionmethodneedtwo·-SCandataandevenmultiple·-SCantoanalyzethestructureofthedatabefor
7、ethecompression,andinthiswayforthenetworkintermsofthedatastreamwillcauseagreatdelay.Therefore,howtoeffectivelycompletethecompressionofXMLdatastreamtosavestoragespaceandreducetransmissioncosts,atthesametimeifweCansupportcompressionofXMLdatastreamsdirectlyquerypmcessinginordertoavoidde
8、compressiono