xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

ID:33515518

大?。?.86 MB

頁(yè)數(shù):53頁(yè)

時(shí)間:2019-02-26

xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)
xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)
xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)
xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)
xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)
資源描述:

《xml重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、華中科技大學(xué)碩士學(xué)位論文XML重復(fù)對(duì)象檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)姓名:王巍申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)軟件與理論指導(dǎo)教師:馮玉才2011-01-19摘要隨著Internet和信息技術(shù)的高速發(fā)展,XML文檔作為數(shù)據(jù)存儲(chǔ)介質(zhì)應(yīng)用范圍越來(lái)越廣泛,XML數(shù)據(jù)的重復(fù)元素檢測(cè)問(wèn)題已經(jīng)引起了從事數(shù)據(jù)庫(kù)和Internet應(yīng)用等研究人員的大量關(guān)注。而XML數(shù)據(jù)結(jié)構(gòu)的多樣性,給XML元素相似性判斷帶來(lái)很大困難。為了有效的清除XML數(shù)據(jù)中的重復(fù)元素,研究了XML重復(fù)元素識(shí)別規(guī)則,設(shè)計(jì)和實(shí)現(xiàn)了重復(fù)XML元素檢測(cè)系統(tǒng)。研究了重

2、復(fù)XML元素判定標(biāo)準(zhǔn)、相似字符串識(shí)別和XML元素相似度計(jì)算等問(wèn)題,分析出XML重復(fù)元素檢測(cè)的關(guān)鍵是如何有效地處理結(jié)構(gòu)多樣性的問(wèn)題和如何處理父、子元素間的依賴關(guān)系,并設(shè)計(jì)實(shí)現(xiàn)了重復(fù)XML元素檢測(cè)系統(tǒng)。檢測(cè)系統(tǒng)主要由文檔預(yù)處理模塊、相似字符串識(shí)別模塊和元素相似度計(jì)算模塊組成。在檢測(cè)系統(tǒng)實(shí)現(xiàn)方面,給出了一種自頂向下、多重過(guò)濾的檢測(cè)方法。通過(guò)對(duì)XML數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的分析,給出了重復(fù)XML元素對(duì)象的定義;通過(guò)文檔預(yù)處理在一定程度上解決了XML結(jié)構(gòu)多樣性的問(wèn)題;通過(guò)設(shè)計(jì)多種過(guò)濾條件,有效的降低了檢測(cè)字符串相似度

3、和XML元素相似度的計(jì)算量;通過(guò)自頂向下的遍歷解決了XML元素父子元素間的依賴關(guān)系。設(shè)計(jì)實(shí)現(xiàn)了DirtyXMLGenerator(DXG)工具,用來(lái)生成實(shí)驗(yàn)數(shù)據(jù)。為了說(shuō)明檢測(cè)系統(tǒng)的正確性和過(guò)濾條件的有效性,通過(guò)DXG工具往XML數(shù)據(jù)內(nèi)引入了結(jié)構(gòu)錯(cuò)誤和字符串錯(cuò)誤兩種類(lèi)型的臟數(shù)據(jù),對(duì)每個(gè)過(guò)濾條件都進(jìn)行了單獨(dú)的分析,對(duì)檢測(cè)系統(tǒng)的正確性和效率也進(jìn)行了分析。最終說(shuō)明了所有過(guò)濾條件都是有效而且高效的,檢測(cè)系統(tǒng)檢測(cè)的結(jié)果也和預(yù)先引入的臟數(shù)據(jù)一致。關(guān)鍵字:重復(fù)元素檢測(cè)系統(tǒng),可擴(kuò)展標(biāo)記語(yǔ)言,相似字符串,多重過(guò)濾,自

4、頂向下IAbstractWiththerapiddevelopmentoftheInternetandinformationtechnology,thescopeofapplicationofXMLdocumentsasadatastoragemediumaremorewidely,greatattentionshavebeenpaidtotheproblemofdetectingduplicateXMLelements.AndthediversityofXMLdocument’sstructur

5、ehascausedgreatdifficultiestothesimilardetectionoftheXMLelements.ToeffectivelyremoveduplicateelementsinXMLdocuments,recognitionrulesofduplicateelementshadbeenstudied,andaduplicateXMLelementdetectionsystemhadbeendesignedandimplemented.Thecriteriaofrepe

6、titiveelements,identifyingsimilarstringsandsimilaritycalculationofXMLelementshadbeenstudied.AndconcludedthatthekeyproblemofdetectingduplicateXMLelementsishowtoeffectivelydealwithdiversityissuesandhowtofindthecomplexdependenciesbetweentheparentandthesu

7、b-elements,andaduplicateXMLelementdetectionsystemhadbeendesignedandimplemented.Thedetectionsystemconsistsofdocumentpre-processingmodule,themoduleofidentifyingsimilarstringsandthemoduleofthesimilaritycalculationofXMLelements.Inthefieldofcompletingthede

8、tectionsystem,atop-down,multi-detectionfilterdetectionmethodshadbeenstudied.AccordingtotheanalysisofXMLdatastoragestructure,thedefinitionofrepeatingXMLelementobjectshadbeenstudied;BypreprocessingthedocumenttosomeextentsolvedtheproblemofXMLstru

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。