資源描述:
《數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實(shí)現(xiàn).pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第7期菅志剛等:數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實(shí)現(xiàn)·117·*數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實(shí)現(xiàn)菅志剛,金旭(北京科技大學(xué)信息工程學(xué)院,北京100083)摘要:數(shù)據(jù)預(yù)處理將原始的真實(shí)數(shù)據(jù)庫(kù)轉(zhuǎn)換成適于數(shù)據(jù)挖掘的挖掘數(shù)據(jù)庫(kù),為挖掘算法更好的實(shí)現(xiàn)以及挖掘結(jié)果形象的顯示打下了良好的基礎(chǔ)。針對(duì)結(jié)構(gòu)化數(shù)據(jù)討論了數(shù)據(jù)預(yù)處理的兩個(gè)目標(biāo):消除現(xiàn)實(shí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)缺陷;為數(shù)據(jù)挖掘做準(zhǔn)備。并在此基礎(chǔ)上,介紹了數(shù)據(jù)挖掘軟件KDD中數(shù)據(jù)預(yù)處理技術(shù)的實(shí)現(xiàn)。關(guān)鍵詞:數(shù)據(jù)預(yù)處理;數(shù)據(jù)分析;KDD(KnowiedgeDiscoverinDatabase)中圖法分類
2、號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1001-3695(2004)07-0117-02ResearchonDataPreprocessinDataMiningandItsAppiicationJIANZhi-gang,JINXu(Dept.ofComputerScience&Engineering,BeijingUniuersityofScience&Technology,Beijing100083,China)Abstract:Indatamining,datapreprocessconvertsthereaidatab
3、asetotheminingdatabase.Sotheminingaigorithmscanruneffectiveiyandtheminingresuitscangetabetterdispiay.Aimatstructuraidata,discussestwotargetsofthedatapreprocess.Oneistoeiiminatethedefectsinreaidatabase.Theotheristomakepreparefortheminingprocess.Onthisbases,weintro-d
4、uceitsappiicationintheKDD,asoftwareofdatamining.Keywords:DataPreprocess;DataAnaiysis;DataMining;KDD數(shù)據(jù)挖掘整體過(guò)程中,原始數(shù)據(jù)庫(kù)中的數(shù)據(jù)從現(xiàn)實(shí)中提取趣,希望通過(guò)數(shù)據(jù)挖掘工具對(duì)相關(guān)數(shù)據(jù)的操作來(lái)發(fā)現(xiàn)該主題下而來(lái),存在著各種各樣現(xiàn)實(shí)中不可避免的缺陷。海量數(shù)據(jù)GB一些隱含的規(guī)律,從而對(duì)所從事的行業(yè)行為有所指導(dǎo)。而數(shù)據(jù)乃至TB,使得運(yùn)行時(shí)間成為需要考慮的問(wèn)題;不同數(shù)據(jù)表中對(duì)庫(kù)中的數(shù)據(jù)數(shù)量巨大,涵蓋范圍也相對(duì)比較廣泛。有些數(shù)據(jù)表相同屬性的
5、不同命名,在表面上切斷了數(shù)據(jù)之間聯(lián)系;數(shù)據(jù)表格中的數(shù)據(jù)根本上是沒(méi)有聯(lián)系的。如果不對(duì)數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)單中總會(huì)有大量的空缺值,甚至是錯(cuò)誤的記錄。這些問(wèn)題形成了篩選,則會(huì)使無(wú)用數(shù)據(jù)參與挖掘過(guò)程,造成各種資源上的浪費(fèi)。原始數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘所需要的挖掘數(shù)據(jù)庫(kù)之間一道鴻更為嚴(yán)重的問(wèn)題是,由于一般挖掘算法僅對(duì)抽象的數(shù)據(jù)進(jìn)行操[1]溝。即使這些問(wèn)題在一定程度上得以解決,考慮到挖掘算作,即使完全不相關(guān)的數(shù)據(jù)也會(huì)“挖掘”出“規(guī)律”。這種規(guī)律法的有效性和運(yùn)行時(shí)間的問(wèn)題,還需要對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)做一可以說(shuō)毫無(wú)實(shí)際意義,僅是數(shù)據(jù)海量造成的結(jié)果。定的處理。以
6、上,從原始數(shù)據(jù)庫(kù)到挖掘數(shù)據(jù)庫(kù)之間,對(duì)數(shù)據(jù)進(jìn)數(shù)據(jù)庫(kù)操作人員對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)有充分的了解,由他們行的操作稱為數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理一般分為四個(gè)步驟:數(shù)來(lái)選擇待挖掘數(shù)據(jù)是很適合的。但是,考慮到數(shù)據(jù)量的巨大,據(jù)選取、數(shù)據(jù)表屬性一致化、數(shù)據(jù)清理、數(shù)據(jù)離散化(數(shù)據(jù)歸如果完全由人來(lái)進(jìn)行選取是不現(xiàn)實(shí)的。一般我們采取人機(jī)結(jié)約)。其中,前三個(gè)步驟解決原始數(shù)據(jù)庫(kù)中表面存在的問(wèn)題,合的方式。由人來(lái)選擇較高概念層次上的數(shù)據(jù)類別,而通過(guò)預(yù)[2,3]已經(jīng)有了相應(yīng)的多種方法和技術(shù);第四個(gè)步驟涉及到原始先編制好的程序來(lái)選擇數(shù)據(jù)庫(kù)中具體的數(shù)據(jù)表格。如果數(shù)據(jù)數(shù)據(jù)
7、庫(kù)中數(shù)據(jù)的內(nèi)涵,對(duì)下一步的挖掘工作起著決定性作用,挖掘在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上進(jìn)行,那么操作起來(lái)會(huì)方便一些;如[4]一般采用具有一定智能化的處理方法,而為了避免挖掘出果沒(méi)有建立數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)表選取的時(shí)候會(huì)遇到所謂“實(shí)體[5]類似“圣經(jīng)密碼”的無(wú)效知識(shí),領(lǐng)域?qū)<业膮⑴c在該步驟是[3]識(shí)別”問(wèn)題,即同一實(shí)體在不同數(shù)據(jù)表中由不同的屬性來(lái)表[6]必不可少的。示,通常我們可以通過(guò)元數(shù)據(jù)的查詢來(lái)解決這一問(wèn)題。實(shí)體識(shí)別問(wèn)題在數(shù)據(jù)表屬性一致化中將得到根本解決。!"數(shù)據(jù)選取#"數(shù)據(jù)表屬性一致化數(shù)據(jù)選取是從用戶的原始數(shù)據(jù)庫(kù)中由用戶指定選出用戶感興趣
8、的、與知識(shí)發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)表項(xiàng)。用戶在選擇過(guò)程當(dāng)待挖掘的數(shù)據(jù)表已經(jīng)選取完畢時(shí),我們開(kāi)始對(duì)這些數(shù)據(jù)中可以通過(guò)查看所選數(shù)據(jù)表的記錄數(shù)據(jù),來(lái)作出進(jìn)一步的選擇表中的數(shù)據(jù)進(jìn)行挖掘前的預(yù)處理。首先,在數(shù)據(jù)表的屬性這一判斷。通常用戶都是對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)包含的某個(gè)主題感興層次上進(jìn)行統(tǒng)一。主要解決上邊提到