資源描述:
《數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第7期菅志剛等:數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn)·117·*數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn)菅志剛,金旭(北京科技大學(xué)信息工程學(xué)院,北京100083)摘要:數(shù)據(jù)預(yù)處理將原始的真實數(shù)據(jù)庫轉(zhuǎn)換成適于數(shù)據(jù)挖掘的挖掘數(shù)據(jù)庫,為挖掘算法更好的實現(xiàn)以及挖掘結(jié)果形象的顯示打下了良好的基礎(chǔ)。針對結(jié)構(gòu)化數(shù)據(jù)討論了數(shù)據(jù)預(yù)處理的兩個目標(biāo):消除現(xiàn)實數(shù)據(jù)庫中的數(shù)據(jù)缺陷;為數(shù)據(jù)挖掘做準(zhǔn)備。并在此基礎(chǔ)上,介紹了數(shù)據(jù)挖掘軟件KDD中數(shù)據(jù)預(yù)處理技術(shù)的實現(xiàn)。關(guān)鍵詞:數(shù)據(jù)預(yù)處理;數(shù)據(jù)分析;KDD(KnowiedgeDiscoverinDatabase)中圖法分類
2、號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1001-3695(2004)07-0117-02ResearchonDataPreprocessinDataMiningandItsAppiicationJIANZhi-gang,JINXu(Dept.ofComputerScience&Engineering,BeijingUniuersityofScience&Technology,Beijing100083,China)Abstract:Indatamining,datapreprocessconvertsthereaidatab
3、asetotheminingdatabase.Sotheminingaigorithmscanruneffectiveiyandtheminingresuitscangetabetterdispiay.Aimatstructuraidata,discussestwotargetsofthedatapreprocess.Oneistoeiiminatethedefectsinreaidatabase.Theotheristomakepreparefortheminingprocess.Onthisbases,weintro-d
4、uceitsappiicationintheKDD,asoftwareofdatamining.Keywords:DataPreprocess;DataAnaiysis;DataMining;KDD數(shù)據(jù)挖掘整體過程中,原始數(shù)據(jù)庫中的數(shù)據(jù)從現(xiàn)實中提取趣,希望通過數(shù)據(jù)挖掘工具對相關(guān)數(shù)據(jù)的操作來發(fā)現(xiàn)該主題下而來,存在著各種各樣現(xiàn)實中不可避免的缺陷。海量數(shù)據(jù)GB一些隱含的規(guī)律,從而對所從事的行業(yè)行為有所指導(dǎo)。而數(shù)據(jù)乃至TB,使得運(yùn)行時間成為需要考慮的問題;不同數(shù)據(jù)表中對庫中的數(shù)據(jù)數(shù)量巨大,涵蓋范圍也相對比較廣泛。有些數(shù)據(jù)表相同屬性的
5、不同命名,在表面上切斷了數(shù)據(jù)之間聯(lián)系;數(shù)據(jù)表格中的數(shù)據(jù)根本上是沒有聯(lián)系的。如果不對數(shù)據(jù)庫進(jìn)行簡單中總會有大量的空缺值,甚至是錯誤的記錄。這些問題形成了篩選,則會使無用數(shù)據(jù)參與挖掘過程,造成各種資源上的浪費(fèi)。原始數(shù)據(jù)庫與數(shù)據(jù)挖掘所需要的挖掘數(shù)據(jù)庫之間一道鴻更為嚴(yán)重的問題是,由于一般挖掘算法僅對抽象的數(shù)據(jù)進(jìn)行操[1]溝。即使這些問題在一定程度上得以解決,考慮到挖掘算作,即使完全不相關(guān)的數(shù)據(jù)也會“挖掘”出“規(guī)律”。這種規(guī)律法的有效性和運(yùn)行時間的問題,還需要對數(shù)據(jù)庫中的數(shù)據(jù)做一可以說毫無實際意義,僅是數(shù)據(jù)海量造成的結(jié)果。定的處理。以
6、上,從原始數(shù)據(jù)庫到挖掘數(shù)據(jù)庫之間,對數(shù)據(jù)進(jìn)數(shù)據(jù)庫操作人員對數(shù)據(jù)庫中的數(shù)據(jù)有充分的了解,由他們行的操作稱為數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理一般分為四個步驟:數(shù)來選擇待挖掘數(shù)據(jù)是很適合的。但是,考慮到數(shù)據(jù)量的巨大,據(jù)選取、數(shù)據(jù)表屬性一致化、數(shù)據(jù)清理、數(shù)據(jù)離散化(數(shù)據(jù)歸如果完全由人來進(jìn)行選取是不現(xiàn)實的。一般我們采取人機(jī)結(jié)約)。其中,前三個步驟解決原始數(shù)據(jù)庫中表面存在的問題,合的方式。由人來選擇較高概念層次上的數(shù)據(jù)類別,而通過預(yù)[2,3]已經(jīng)有了相應(yīng)的多種方法和技術(shù);第四個步驟涉及到原始先編制好的程序來選擇數(shù)據(jù)庫中具體的數(shù)據(jù)表格。如果數(shù)據(jù)數(shù)據(jù)
7、庫中數(shù)據(jù)的內(nèi)涵,對下一步的挖掘工作起著決定性作用,挖掘在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)行,那么操作起來會方便一些;如[4]一般采用具有一定智能化的處理方法,而為了避免挖掘出果沒有建立數(shù)據(jù)倉庫,在數(shù)據(jù)表選取的時候會遇到所謂“實體[5]類似“圣經(jīng)密碼”的無效知識,領(lǐng)域?qū)<业膮⑴c在該步驟是[3]識別”問題,即同一實體在不同數(shù)據(jù)表中由不同的屬性來表[6]必不可少的。示,通常我們可以通過元數(shù)據(jù)的查詢來解決這一問題。實體識別問題在數(shù)據(jù)表屬性一致化中將得到根本解決。!"數(shù)據(jù)選取#"數(shù)據(jù)表屬性一致化數(shù)據(jù)選取是從用戶的原始數(shù)據(jù)庫中由用戶指定選出用戶感興趣
8、的、與知識發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)表項。用戶在選擇過程當(dāng)待挖掘的數(shù)據(jù)表已經(jīng)選取完畢時,我們開始對這些數(shù)據(jù)中可以通過查看所選數(shù)據(jù)表的記錄數(shù)據(jù),來作出進(jìn)一步的選擇表中的數(shù)據(jù)進(jìn)行挖掘前的預(yù)處理。首先,在數(shù)據(jù)表的屬性這一判斷。通常用戶都是對數(shù)據(jù)庫中的數(shù)據(jù)包含的某個主題感興層次上進(jìn)行統(tǒng)一。主要解決上邊提到