【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf

ID:32020904

大小:2.46 MB

頁(yè)數(shù):57頁(yè)

時(shí)間:2019-01-30

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第1頁(yè)
【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第2頁(yè)
【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第3頁(yè)
【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第4頁(yè)
【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第5頁(yè)
資源描述:

《【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、沈陽(yáng)航空工業(yè)學(xué)院碩士學(xué)位論文摘要數(shù)據(jù)的抽取、轉(zhuǎn)換和裝入是創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的重要環(huán)節(jié),它將組織機(jī)構(gòu)內(nèi)多元分散的數(shù)據(jù)按照主題統(tǒng)一裝載到數(shù)據(jù)倉(cāng)庫(kù)中,能夠很好地解決組織機(jī)構(gòu)內(nèi)部數(shù)據(jù)一致性與信息集成化問(wèn)題。然而,ETL程序的頻繁運(yùn)行難免會(huì)產(chǎn)生大量的“臟數(shù)據(jù)”,直接導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)技術(shù)由于數(shù)據(jù)質(zhì)量而不能產(chǎn)生理想正確的決策分析結(jié)果,因此數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前需要進(jìn)行清洗。數(shù)據(jù)清洗技術(shù)一直是近年來(lái)數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中的研究熱點(diǎn),其主要任務(wù)是從原始數(shù)據(jù)集中去除不一致的和錯(cuò)誤的數(shù)據(jù)。首先描述了數(shù)據(jù)質(zhì)量的基本概念、評(píng)價(jià)指標(biāo)及分類等問(wèn)題,在此基礎(chǔ)上按照數(shù)據(jù)清洗算法將臟數(shù)據(jù)劃分為“獨(dú)

2、立型臟數(shù)據(jù)”、“依賴型臟數(shù)據(jù)”兩類,并給出了相應(yīng)的解決方法。其次描述了清洗的基本定義及清洗環(huán)節(jié),定義了ETL層的數(shù)據(jù)清洗模型和在元數(shù)據(jù)庫(kù)中存儲(chǔ)的清洗規(guī)則后,提出了一種自動(dòng)清洗和人為清洗相混合的數(shù)據(jù)清洗策略.針對(duì)中文地址類信息的數(shù)據(jù)清洗問(wèn)題,提出了基于特征字符的分詞方案,并給出了相應(yīng)的分詞算法。該方案將中文地址類信息按邏輯意義分為省、市、區(qū)、街及數(shù)字五組信息,通過(guò)與元數(shù)據(jù)庫(kù)中省、市、區(qū)的標(biāo)準(zhǔn)信息匹配保證了分詞的準(zhǔn)確性。針對(duì)中文地址類相似重復(fù)記錄的處理問(wèn)題,建立了包含分詞規(guī)則的元數(shù)據(jù)庫(kù),提出了一種相似重復(fù)檢測(cè)模型,并給出了利用可變權(quán)值策略計(jì)算中文地址類

3、信息相似度的算法。實(shí)驗(yàn)結(jié)果表明該方案能有效解決中文地址類重復(fù)信息的檢測(cè),提高了算法的執(zhí)行效率及檢測(cè)精度。關(guān)鍵詞:ETL;數(shù)據(jù)清洗;相似重復(fù)記錄;特征字符:分詞:可變權(quán)值一1一沈陽(yáng)航空工業(yè)學(xué)院碩士學(xué)位論文AbstrattTheextractio幾transformandloading(ETL)isanimPortantstePtoconstructdatawarehousesystem,whichmadethemultiP1edisPerseddatoftheor8翻zationsloadedintodatawarehouseaccordingtos

4、omesubject,sothedataconsistencyandinformationintegrationofo電an泣ationcouldberesolved.However,manydirtydatmaybeproducedwiththe觸quentlyrunningofE孔Progranl,thecorectanalysisresuitsmaynOtbeobtalnedfromDWbecauseofthedataquality,sothedatadeansingstePmustbeneededbeforedataisloadedinto

5、DWThetechniqueofdatcleansingisahotissueindata加arehousedo姍n,Whichthemainfunctionistoe!1而nateinconsiste爪anderrordatafromtheinitialdatasets.AfterintroducingthebasicconcePts,estimatinntargetandcategoriZationofdataquality,thedirtydataisdividedintotw0categories,indePendencyoneanddeP

6、endencyoneaccordingtothedatacleansingalgorithm,andthereIatedmethodsareProposed.ThebasicconcePtandstePsofdatacleansinsaredescribed,thedatac1eansingmodelinETLProcessisdefined,andthecleansingrulestor時(shí)inmeta-databaseisdiscused,thenacombin比datcleansingstrate紛us1n8automaticandmanual

7、methodsisPrOPosed.AimingattheissueofChi朋seaddressinformationcleansing,thesegmentmethodandalgorithmbasedonfeaturewordareProposed,inwhichtheChineseaddressinformationissegmeniintofivefields,suchasProvince,cit丫area.streetandnumberMatchin8withthestandardinformationofChineseaddressi

8、nmeta-database,thesegmentacuracycanbeensured.Inordertoelimina

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。