資源描述:
《基于模式xml索引技術(shù)的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、西南交通大學(xué)碩士研究生學(xué)位論文第1頁(yè)摘要XML已經(jīng)成為Web中數(shù)據(jù)表示、交換的標(biāo)準(zhǔn)和工具。與此同時(shí),隨著Intemet的快速發(fā)展,XML文檔的結(jié)構(gòu)和用戶需求也變得越來越復(fù)雜。為了提高XML路徑查詢的效率,人們致力于研究如何對(duì)其節(jié)點(diǎn)建立索引。但是,現(xiàn)有大部分索引技術(shù)中并沒有充分利用模式的結(jié)構(gòu)信息這一有效的資源。本文通過利用模式結(jié)構(gòu)信息快速定位待求的XML節(jié)點(diǎn),給出了基于模式的絕對(duì)路徑(SAPI)和源路徑(SOPI)兩種索引方法。主要有以下幾方面的工作:(1)通過將文檔節(jié)點(diǎn)位置信息的分配、絕對(duì)路徑的求解和進(jìn)一步將這些絕對(duì)路徑聚合的操作,在一次文檔遍歷過
2、程中完成,提高了SAPI的創(chuàng)建速度:(2)通過將文檔節(jié)點(diǎn)下標(biāo)值的賦值、攜帶相關(guān)模式節(jié)點(diǎn)的先序遍歷值和聚合元的合并操作,在一次文檔遍歷過程中完成,提高了SOPI的創(chuàng)建速度;(3)引入模式節(jié)點(diǎn)的路徑匹配算法,通過減少參與后期過濾運(yùn)算中節(jié)點(diǎn)的數(shù)量,提高了查詢速度;(4)改進(jìn)路徑分割算法,避免了類似CAPI中繁瑣的多分支查詢處理過程,同時(shí)提供了嵌套查詢的功能;(5)采用以節(jié)點(diǎn)所在的層為存儲(chǔ)塊,其對(duì)應(yīng)的源路徑信息為塊內(nèi)的基本存儲(chǔ)單位的存儲(chǔ)策略,提高了節(jié)點(diǎn)的檢索速度。實(shí)驗(yàn)結(jié)果表明,與TwigStack、Twi92Stack和TJFaSt等索引方法相比,SAPI
3、和SOPl分別在索引創(chuàng)建、無(wú)分支查詢、分支查詢、嵌套查詢和查詢過程中需要的I/O代價(jià)幾個(gè)方面都表現(xiàn)出了較好的性能。關(guān)鍵詞:XML;模式;索引;查詢處理;絕對(duì)路徑;源路徑西南交通大學(xué)碩士研究生學(xué)位論文第fl頁(yè)AbstractXMLhasbecomethestandardandasaflexsiblemediumofdatarepresentationandexchangeontheweb.Meanwhile,withtherapiddevelopmentofIntemet,theStnlct:u】reofXMLdocumentsandquerydem
4、andofusersarebecomingmorecomplicated.Inordertoretrievetheresultstopathefficiently,peoplepaymanyattentiontoXMLindexing.Atpresent,therearemanytechniquesonXMLdataquery,butmostofthesetechniquesarenotusemeirpatterninformation.ThedissertationbringsforwordtwoXMLindexingmethodswhichba
5、sedonSchemawhileusingXMLpatterninformationtolocatenodes.Themajortasksinclude:(1)Inadocumenttraversalprocess,completedaseriesofoperations,suchasthedistributionoflocationinformation,tosolvetheabsolutepathandfurthermergethesepaths,whileusingmuchlessconstructiontime.(2)Inadocument
6、traversalprocess,completedaseriesofoperations,suchasthedistributionoftaginformation,carriescorrespondingschemastructuralinformationandmergenodesclustered—cell,whileusingmuchlessconstructiontime.(3)Improvesqueryspeedbyreduceingtheamountofnodesthathavetosearch.whileusingPath—Mat
7、chalgorithm.(4)AvoidthetrivalmultiplebranchingqueryprocessinginCAPIandprovidenestedqueryfunction,whileusingPath—Segmentationalgorithm.(5)Allnodeswillbestoredwiththesamelayer,groupedaccordingtothenodesourcepathinformationtoimprovetheretrievalspeedofnodes.ComparedwiththeTwigStac
8、k,Twi92StackandTJFastindexes,ourexperimentalresultsdemonstrat