資源描述:
《xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、華中科技大學(xué)碩士學(xué)位論文XML重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)姓名:王巍申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)軟件與理論指導(dǎo)教師:馮玉才2011-01-19摘要隨著Internet和信息技術(shù)的高速發(fā)展,XML文檔作為數(shù)據(jù)存儲(chǔ)介質(zhì)應(yīng)用范圍越來(lái)越廣泛,XML數(shù)據(jù)的重復(fù)元素檢測(cè)問(wèn)題已經(jīng)引起了從事數(shù)據(jù)庫(kù)和Internet應(yīng)用等研究人員的大量關(guān)注。而XML數(shù)據(jù)結(jié)構(gòu)的多樣性,給XML元素相似性判斷帶來(lái)很大困難。為了有效的清除XML數(shù)據(jù)中的重復(fù)元素,研究了XML重復(fù)元素識(shí)別規(guī)則,設(shè)計(jì)和實(shí)現(xiàn)了重復(fù)XML元素檢測(cè)系統(tǒng)。研究了重
2、復(fù)XML元素判定標(biāo)準(zhǔn)、相似字符串識(shí)別和XML元素相似度計(jì)算等問(wèn)題,分析出XML重復(fù)元素檢測(cè)的關(guān)鍵是如何有效地處理結(jié)構(gòu)多樣性的問(wèn)題和如何處理父、子元素間的依賴關(guān)系,并設(shè)計(jì)實(shí)現(xiàn)了重復(fù)XML元素檢測(cè)系統(tǒng)。檢測(cè)系統(tǒng)主要由文檔預(yù)處理模塊、相似字符串識(shí)別模塊和元素相似度計(jì)算模塊組成。在檢測(cè)系統(tǒng)實(shí)現(xiàn)方面,給出了一種自頂向下、多重過(guò)濾的檢測(cè)方法。通過(guò)對(duì)XML數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的分析,給出了重復(fù)XML元素對(duì)象的定義;通過(guò)文檔預(yù)處理在一定程度上解決了XML結(jié)構(gòu)多樣性的問(wèn)題;通過(guò)設(shè)計(jì)多種過(guò)濾條件,有效的降低了檢測(cè)字符串相似度
3、和XML元素相似度的計(jì)算量;通過(guò)自頂向下的遍歷解決了XML元素父子元素間的依賴關(guān)系。設(shè)計(jì)實(shí)現(xiàn)了DirtyXMLGenerator(DXG)工具,用來(lái)生成實(shí)驗(yàn)數(shù)據(jù)。為了說(shuō)明檢測(cè)系統(tǒng)的正確性和過(guò)濾條件的有效性,通過(guò)DXG工具往XML數(shù)據(jù)內(nèi)引入了結(jié)構(gòu)錯(cuò)誤和字符串錯(cuò)誤兩種類(lèi)型的臟數(shù)據(jù),對(duì)每個(gè)過(guò)濾條件都進(jìn)行了單獨(dú)的分析,對(duì)檢測(cè)系統(tǒng)的正確性和效率也進(jìn)行了分析。最終說(shuō)明了所有過(guò)濾條件都是有效而且高效的,檢測(cè)系統(tǒng)檢測(cè)的結(jié)果也和預(yù)先引入的臟數(shù)據(jù)一致。關(guān)鍵字:重復(fù)元素檢測(cè)系統(tǒng),可擴(kuò)展標(biāo)記語(yǔ)言,相似字符串,多重過(guò)濾,自
4、頂向下IAbstractWiththerapiddevelopmentoftheInternetandinformationtechnology,thescopeofapplicationofXMLdocumentsasadatastoragemediumaremorewidely,greatattentionshavebeenpaidtotheproblemofdetectingduplicateXMLelements.AndthediversityofXMLdocument’sstructur
5、ehascausedgreatdifficultiestothesimilardetectionoftheXMLelements.ToeffectivelyremoveduplicateelementsinXMLdocuments,recognitionrulesofduplicateelementshadbeenstudied,andaduplicateXMLelementdetectionsystemhadbeendesignedandimplemented.Thecriteriaofrepe
6、titiveelements,identifyingsimilarstringsandsimilaritycalculationofXMLelementshadbeenstudied.AndconcludedthatthekeyproblemofdetectingduplicateXMLelementsishowtoeffectivelydealwithdiversityissuesandhowtofindthecomplexdependenciesbetweentheparentandthesu
7、b-elements,andaduplicateXMLelementdetectionsystemhadbeendesignedandimplemented.Thedetectionsystemconsistsofdocumentpre-processingmodule,themoduleofidentifyingsimilarstringsandthemoduleofthesimilaritycalculationofXMLelements.Inthefieldofcompletingthede
8、tectionsystem,atop-down,multi-detectionfilterdetectionmethodshadbeenstudied.AccordingtotheanalysisofXMLdatastoragestructure,thedefinitionofrepeatingXMLelementobjectshadbeenstudied;BypreprocessingthedocumenttosomeextentsolvedtheproblemofXMLstru