資源描述:
《【碩士論文】ETL過(guò)程中的數(shù)據(jù)清洗技術(shù)研究與應(yīng)用.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、沈陽(yáng)航空工業(yè)學(xué)院碩士學(xué)位論文摘要數(shù)據(jù)的抽取、轉(zhuǎn)換和裝入是創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的重要環(huán)節(jié),它將組織機(jī)構(gòu)內(nèi)多元分散的數(shù)據(jù)按照主題統(tǒng)一裝載到數(shù)據(jù)倉(cāng)庫(kù)中,能夠很好地解決組織機(jī)構(gòu)內(nèi)部數(shù)據(jù)一致性與信息集成化問(wèn)題。然而,ETL程序的頻繁運(yùn)行難免會(huì)產(chǎn)生大量的“臟數(shù)據(jù)”,直接導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)技術(shù)由于數(shù)據(jù)質(zhì)量而不能產(chǎn)生理想正確的決策分析結(jié)果,因此數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前需要進(jìn)行清洗。數(shù)據(jù)清洗技術(shù)一直是近年來(lái)數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中的研究熱點(diǎn),其主要任務(wù)是從原始數(shù)據(jù)集中去除不一致的和錯(cuò)誤的數(shù)據(jù)。首先描述了數(shù)據(jù)質(zhì)量的基本概念、評(píng)價(jià)指標(biāo)及分類等問(wèn)題,在此基礎(chǔ)上按照數(shù)據(jù)清洗算法將臟數(shù)據(jù)劃分為“獨(dú)
2、立型臟數(shù)據(jù)”、“依賴型臟數(shù)據(jù)”兩類,并給出了相應(yīng)的解決方法。其次描述了清洗的基本定義及清洗環(huán)節(jié),定義了ETL層的數(shù)據(jù)清洗模型和在元數(shù)據(jù)庫(kù)中存儲(chǔ)的清洗規(guī)則后,提出了一種自動(dòng)清洗和人為清洗相混合的數(shù)據(jù)清洗策略.針對(duì)中文地址類信息的數(shù)據(jù)清洗問(wèn)題,提出了基于特征字符的分詞方案,并給出了相應(yīng)的分詞算法。該方案將中文地址類信息按邏輯意義分為省、市、區(qū)、街及數(shù)字五組信息,通過(guò)與元數(shù)據(jù)庫(kù)中省、市、區(qū)的標(biāo)準(zhǔn)信息匹配保證了分詞的準(zhǔn)確性。針對(duì)中文地址類相似重復(fù)記錄的處理問(wèn)題,建立了包含分詞規(guī)則的元數(shù)據(jù)庫(kù),提出了一種相似重復(fù)檢測(cè)模型,并給出了利用可變權(quán)值策略計(jì)算中文地址類
3、信息相似度的算法。實(shí)驗(yàn)結(jié)果表明該方案能有效解決中文地址類重復(fù)信息的檢測(cè),提高了算法的執(zhí)行效率及檢測(cè)精度。關(guān)鍵詞:ETL;數(shù)據(jù)清洗;相似重復(fù)記錄;特征字符:分詞:可變權(quán)值一1一沈陽(yáng)航空工業(yè)學(xué)院碩士學(xué)位論文AbstrattTheextractio幾transformandloading(ETL)isanimPortantstePtoconstructdatawarehousesystem,whichmadethemultiP1edisPerseddatoftheor8翻zationsloadedintodatawarehouseaccordingtos
4、omesubject,sothedataconsistencyandinformationintegrationofo電an泣ationcouldberesolved.However,manydirtydatmaybeproducedwiththe觸quentlyrunningofE孔Progranl,thecorectanalysisresuitsmaynOtbeobtalnedfromDWbecauseofthedataquality,sothedatadeansingstePmustbeneededbeforedataisloadedinto
5、DWThetechniqueofdatcleansingisahotissueindata加arehousedo姍n,Whichthemainfunctionistoe!1而nateinconsiste爪anderrordatafromtheinitialdatasets.AfterintroducingthebasicconcePts,estimatinntargetandcategoriZationofdataquality,thedirtydataisdividedintotw0categories,indePendencyoneanddeP
6、endencyoneaccordingtothedatacleansingalgorithm,andthereIatedmethodsareProposed.ThebasicconcePtandstePsofdatacleansinsaredescribed,thedatac1eansingmodelinETLProcessisdefined,andthecleansingrulestor時(shí)inmeta-databaseisdiscused,thenacombin比datcleansingstrate紛us1n8automaticandmanual
7、methodsisPrOPosed.AimingattheissueofChi朋seaddressinformationcleansing,thesegmentmethodandalgorithmbasedonfeaturewordareProposed,inwhichtheChineseaddressinformationissegmeniintofivefields,suchasProvince,cit丫area.streetandnumberMatchin8withthestandardinformationofChineseaddressi
8、nmeta-database,thesegmentacuracycanbeensured.Inordertoelimina