資源描述:
《基于條件函數(shù)依賴的挖掘算法研究-論文.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第25卷第5期計(jì)算機(jī)技術(shù)與發(fā)展V0J.25No。52015年5月C0MPUTERTECHNOL0GYANDDEVELOPMENTMay2015基于條件函數(shù)依賴的挖掘算法研究張方舟,高曉松(東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江大慶163318)摘要:由于采用函數(shù)依賴(FunctionalDependency,F(xiàn)D)對(duì)數(shù)據(jù)庫(kù)的檢測(cè)和修復(fù)還不夠充分,現(xiàn)提出了條件函數(shù)依賴(Con—ditionalFunctionalDependency,CFD),其是在FD的基礎(chǔ)上加入了語(yǔ)義約束。條件函數(shù)依賴的挖掘是一種重要的數(shù)
2、據(jù)庫(kù)分析技術(shù),CFD挖掘是在FD挖掘的基礎(chǔ)上通過(guò)條件分析進(jìn)行更細(xì)粒度的信息挖掘,其時(shí)間復(fù)雜度較高。文中主要介紹了CFD的相關(guān)概念及CFD經(jīng)典挖掘算法之一一cTANE,并對(duì)該算法效率進(jìn)行改進(jìn)。改進(jìn)后的算法不僅可以提高數(shù)據(jù)挖掘過(guò)程中操作的效率,同時(shí)也將節(jié)省數(shù)據(jù)的存儲(chǔ)空間。關(guān)鍵詞:條件函數(shù)依賴;數(shù)據(jù)質(zhì)量;數(shù)據(jù)清洗;CTANE算法中圖分類(lèi)號(hào):TP301.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1673—629X(2015)05—0056—04doi:10.3969/j.issn.1673—629X.2015.05.014Resea
3、rchonMiningAlgorithmBasedonConditionalFunctionalDependenceZHANGFang—zhou,GAOXiao-song(SchoolofComputer&InformationTechnology,NortheastPetroleumUniversity,Daqing163318,China)Abstract:BecausethedetectionandrepairofthedatabaseisnotsufficientbyFunctionalDepende
4、ncy(FD),ConditionalFunctionalDe-pendency(CFD)isproposed,whichisanextensionofFDaddingsemanticconstraints.ThediscoveryofCFDisanimportantdatabasea—nalysistechnique,CFDminingdothemorefine-grainedinformationmineswhichbasedonFDmining,SOthetimecomplexityofCFDminin
5、gishigherthanthelatter.IntroducetherelatedconceptofCFDandoneoftheCFDclassicalminingalgorithm-CTANEinthispa-per,andimprovetheefficiencyofthisalgorithm.TheimprovedalgorithmCannotonlyenhancetheoperatingeficiencyofthedatamin-ingprocess,butalsosavethedatastorage
6、space.Keywords:conditionalfunctionaldependency;dataquality;datacleaning;CTANEalgorithmO引言洗是提高數(shù)據(jù)質(zhì)量的關(guān)鍵技術(shù),所謂數(shù)據(jù)清洗就是將近幾年,隨著互聯(lián)網(wǎng)大潮的席卷,無(wú)論是企業(yè)、政錯(cuò)誤的、重復(fù)的、不一致的“臟”數(shù)據(jù)進(jìn)行清洗使其變府還是媒體都通過(guò)網(wǎng)絡(luò)產(chǎn)生了海量的信息,豐富多樣“干凈”。數(shù)據(jù)清洗是一個(gè)勞動(dòng)密集型和復(fù)雜的過(guò)程,的數(shù)據(jù)在給人們帶來(lái)方便快捷的同時(shí),數(shù)據(jù)的質(zhì)量問(wèn)在數(shù)據(jù)庫(kù)挖掘項(xiàng)目中,30%~80%的時(shí)間花在了數(shù)據(jù)題也日益
7、凸顯出來(lái)。數(shù)據(jù)質(zhì)量的低下直接影響統(tǒng)計(jì)信清洗上,可見(jiàn)其重要性非同一般。息的可利用性,這將會(huì)誤導(dǎo)決策者做出錯(cuò)誤決定,從而數(shù)據(jù)質(zhì)量的主要評(píng)價(jià)指標(biāo)包括以下幾個(gè)方面:一給企業(yè)帶來(lái)嚴(yán)重的經(jīng)濟(jì)損失?。致性、正確性、完整性和最小性。其中,近幾年數(shù)據(jù)庫(kù)企業(yè)中復(fù)雜的數(shù)據(jù)環(huán)境可能導(dǎo)致多種多樣數(shù)據(jù)質(zhì)研究領(lǐng)域的一個(gè)熱門(mén)話題是如何解決數(shù)據(jù)的不一致性量問(wèn)題的出現(xiàn),最近統(tǒng)計(jì)數(shù)字表明,美國(guó)商業(yè)公司每年問(wèn)題。在數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的函數(shù)依賴是一個(gè)很重在處理臟數(shù)據(jù)的問(wèn)題上要花費(fèi)數(shù)十億美元,普華永道要的概念,在現(xiàn)實(shí)世界中,大量數(shù)據(jù)彼此之間可能存在會(huì)計(jì)事
8、務(wù)所在紐約的研究表明,高達(dá)75%的被調(diào)查公聯(lián)系,而函數(shù)依賴可以反映出其中屬性中間的關(guān)聯(lián)性,司存在因臟數(shù)據(jù)問(wèn)題造成經(jīng)濟(jì)損失的現(xiàn)象。數(shù)據(jù)清并可以利用這種關(guān)聯(lián)關(guān)系進(jìn)行判定查詢優(yōu)化、數(shù)據(jù)約收稿日期:2014—06—16修回日期:2014—09—24網(wǎng)絡(luò)出版時(shí)間:2015—02—23基金項(xiàng)目:黑龍江省科技攻關(guān)項(xiàng)目(F2004—01);黑龍江省教育重大科研項(xiàng)目(10051z0001)作者簡(jiǎn)介:張方舟(1973一