【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf

ID：32020904

大小：2.46 MB

頁(yè)數(shù)：57頁(yè)

時(shí)間：2019-01-30

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第1頁(yè)

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第2頁(yè)

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第3頁(yè)

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第4頁(yè)

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf_第5頁(yè)

資源描述：

《【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、沈陽(yáng)航空工業(yè)學(xué)院碩士學(xué)位論文摘要數(shù)據(jù)的抽取、轉(zhuǎn)換和裝入是創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的重要環(huán)節(jié)，它將組織機(jī)構(gòu)內(nèi)多元分散的數(shù)據(jù)按照主題統(tǒng)一裝載到數(shù)據(jù)倉(cāng)庫(kù)中，能夠很好地解決組織機(jī)構(gòu)內(nèi)部數(shù)據(jù)一致性與信息集成化問(wèn)題。然而，ETL程序的頻繁運(yùn)行難免會(huì)產(chǎn)生大量的“臟數(shù)據(jù)”，直接導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)技術(shù)由于數(shù)據(jù)質(zhì)量而不能產(chǎn)生理想正確的決策分析結(jié)果，因此數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前需要進(jìn)行清洗。數(shù)據(jù)清洗技術(shù)一直是近年來(lái)數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中的研究熱點(diǎn)，其主要任務(wù)是從原始數(shù)據(jù)集中去除不一致的和錯(cuò)誤的數(shù)據(jù)。首先描述了數(shù)據(jù)質(zhì)量的基本概念、評(píng)價(jià)指標(biāo)及分類等問(wèn)題，在此基礎(chǔ)上按照數(shù)據(jù)清洗算法將臟數(shù)據(jù)劃分為“獨(dú)

2、立型臟數(shù)據(jù)”、“依賴型臟數(shù)據(jù)”兩類，并給出了相應(yīng)的解決方法。其次描述了清洗的基本定義及清洗環(huán)節(jié)，定義了ETL層的數(shù)據(jù)清洗模型和在元數(shù)據(jù)庫(kù)中存儲(chǔ)的清洗規(guī)則后，提出了一種自動(dòng)清洗和人為清洗相混合的數(shù)據(jù)清洗策略.針對(duì)中文地址類信息的數(shù)據(jù)清洗問(wèn)題，提出了基于特征字符的分詞方案，并給出了相應(yīng)的分詞算法。該方案將中文地址類信息按邏輯意義分為省、市、區(qū)、街及數(shù)字五組信息，通過(guò)與元數(shù)據(jù)庫(kù)中省、市、區(qū)的標(biāo)準(zhǔn)信息匹配保證了分詞的準(zhǔn)確性。針對(duì)中文地址類相似重復(fù)記錄的處理問(wèn)題，建立了包含分詞規(guī)則的元數(shù)據(jù)庫(kù)，提出了一種相似重復(fù)檢測(cè)模型，并給出了利用可變權(quán)值策略計(jì)算中文地址類

3、信息相似度的算法。實(shí)驗(yàn)結(jié)果表明該方案能有效解決中文地址類重復(fù)信息的檢測(cè)，提高了算法的執(zhí)行效率及檢測(cè)精度。關(guān)鍵詞:ETL;數(shù)據(jù)清洗;相似重復(fù)記錄;特征字符:分詞:可變權(quán)值一1一沈陽(yáng)航空工業(yè)學(xué)院碩士學(xué)位論文AbstrattTheextractio幾transformandloading(ETL)isanimPortantstePtoconstructdatawarehousesystem，whichmadethemultiP1edisPerseddatoftheor8翻zationsloadedintodatawarehouseaccordingtos

4、omesubject，sothedataconsistencyandinformationintegrationofo電an泣ationcouldberesolved.However，manydirtydatmaybeproducedwiththe觸quentlyrunningofE孔Progranl，thecorectanalysisresuitsmaynOtbeobtalnedfromDWbecauseofthedataquality，sothedatadeansingstePmustbeneededbeforedataisloadedinto

5、DWThetechniqueofdatcleansingisahotissueindata加arehousedo姍n，Whichthemainfunctionistoe!1而nateinconsiste爪anderrordatafromtheinitialdatasets.AfterintroducingthebasicconcePts，estimatinntargetandcategoriZationofdataquality，thedirtydataisdividedintotw0categories，indePendencyoneanddeP

6、endencyoneaccordingtothedatacleansingalgorithm，andthereIatedmethodsareProposed.ThebasicconcePtandstePsofdatacleansinsaredescribed，thedatac1eansingmodelinETLProcessisdefined，andthecleansingrulestor時(shí)inmeta-databaseisdiscused，thenacombin比datcleansingstrate紛us1n8automaticandmanual

7、methodsisPrOPosed.AimingattheissueofChi朋seaddressinformationcleansing，thesegmentmethodandalgorithmbasedonfeaturewordareProposed，inwhichtheChineseaddressinformationissegmeniintofivefields，suchasProvince，cit丫area.streetandnumberMatchin8withthestandardinformationofChineseaddressi

8、nmeta-database，thesegmentacuracycanbeensured.Inordertoelimina

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 57



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf

【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf

相關(guān)文章

相關(guān)標(biāo)簽