數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf

ID：54127605

大小：260.88 KB

頁數(shù)：5頁

時間：2020-04-29

數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf_第1頁

數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf_第2頁

數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf_第3頁

數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf_第4頁

數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf_第5頁

資源描述：

《數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第7期菅志剛等：數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn)·117·＊數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn)菅志剛，金旭（北京科技大學(xué)信息工程學(xué)院，北京100083）摘要：數(shù)據(jù)預(yù)處理將原始的真實數(shù)據(jù)庫轉(zhuǎn)換成適于數(shù)據(jù)挖掘的挖掘數(shù)據(jù)庫，為挖掘算法更好的實現(xiàn)以及挖掘結(jié)果形象的顯示打下了良好的基礎(chǔ)。針對結(jié)構(gòu)化數(shù)據(jù)討論了數(shù)據(jù)預(yù)處理的兩個目標(biāo)：消除現(xiàn)實數(shù)據(jù)庫中的數(shù)據(jù)缺陷；為數(shù)據(jù)挖掘做準(zhǔn)備。并在此基礎(chǔ)上，介紹了數(shù)據(jù)挖掘軟件KDD中數(shù)據(jù)預(yù)處理技術(shù)的實現(xiàn)。關(guān)鍵詞：數(shù)據(jù)預(yù)處理；數(shù)據(jù)分析；KDD（KnowiedgeDiscoverinDatabase）中圖法分類

2、號：TP391文獻(xiàn)標(biāo)識碼：A文章編號：1001-3695（2004）07-0117-02ResearchonDataPreprocessinDataMiningandItsAppiicationJIANZhi-gang，JINXu（Dept.ofComputerScience&Engineering，BeijingUniuersityofScience&Technology，Beijing100083，China）Abstract：Indatamining，datapreprocessconvertsthereaidatab

3、asetotheminingdatabase.Sotheminingaigorithmscanruneffectiveiyandtheminingresuitscangetabetterdispiay.Aimatstructuraidata，discussestwotargetsofthedatapreprocess.Oneistoeiiminatethedefectsinreaidatabase.Theotheristomakepreparefortheminingprocess.Onthisbases，weintro-d

4、uceitsappiicationintheKDD，asoftwareofdatamining.Keywords：DataPreprocess；DataAnaiysis；DataMining；KDD數(shù)據(jù)挖掘整體過程中，原始數(shù)據(jù)庫中的數(shù)據(jù)從現(xiàn)實中提取趣，希望通過數(shù)據(jù)挖掘工具對相關(guān)數(shù)據(jù)的操作來發(fā)現(xiàn)該主題下而來，存在著各種各樣現(xiàn)實中不可避免的缺陷。海量數(shù)據(jù)GB一些隱含的規(guī)律，從而對所從事的行業(yè)行為有所指導(dǎo)。而數(shù)據(jù)乃至TB，使得運(yùn)行時間成為需要考慮的問題；不同數(shù)據(jù)表中對庫中的數(shù)據(jù)數(shù)量巨大，涵蓋范圍也相對比較廣泛。有些數(shù)據(jù)表相同屬性的

5、不同命名，在表面上切斷了數(shù)據(jù)之間聯(lián)系；數(shù)據(jù)表格中的數(shù)據(jù)根本上是沒有聯(lián)系的。如果不對數(shù)據(jù)庫進(jìn)行簡單中總會有大量的空缺值，甚至是錯誤的記錄。這些問題形成了篩選，則會使無用數(shù)據(jù)參與挖掘過程，造成各種資源上的浪費(fèi)。原始數(shù)據(jù)庫與數(shù)據(jù)挖掘所需要的挖掘數(shù)據(jù)庫之間一道鴻更為嚴(yán)重的問題是，由于一般挖掘算法僅對抽象的數(shù)據(jù)進(jìn)行操［1］溝。即使這些問題在一定程度上得以解決，考慮到挖掘算作，即使完全不相關(guān)的數(shù)據(jù)也會“挖掘”出“規(guī)律”。這種規(guī)律法的有效性和運(yùn)行時間的問題，還需要對數(shù)據(jù)庫中的數(shù)據(jù)做一可以說毫無實際意義，僅是數(shù)據(jù)海量造成的結(jié)果。定的處理。以

6、上，從原始數(shù)據(jù)庫到挖掘數(shù)據(jù)庫之間，對數(shù)據(jù)進(jìn)數(shù)據(jù)庫操作人員對數(shù)據(jù)庫中的數(shù)據(jù)有充分的了解，由他們行的操作稱為數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理一般分為四個步驟：數(shù)來選擇待挖掘數(shù)據(jù)是很適合的。但是，考慮到數(shù)據(jù)量的巨大，據(jù)選取、數(shù)據(jù)表屬性一致化、數(shù)據(jù)清理、數(shù)據(jù)離散化（數(shù)據(jù)歸如果完全由人來進(jìn)行選取是不現(xiàn)實的。一般我們采取人機(jī)結(jié)約）。其中，前三個步驟解決原始數(shù)據(jù)庫中表面存在的問題，合的方式。由人來選擇較高概念層次上的數(shù)據(jù)類別，而通過預(yù)［2，3］已經(jīng)有了相應(yīng)的多種方法和技術(shù)；第四個步驟涉及到原始先編制好的程序來選擇數(shù)據(jù)庫中具體的數(shù)據(jù)表格。如果數(shù)據(jù)數(shù)據(jù)

7、庫中數(shù)據(jù)的內(nèi)涵，對下一步的挖掘工作起著決定性作用，挖掘在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)行，那么操作起來會方便一些；如［4］一般采用具有一定智能化的處理方法，而為了避免挖掘出果沒有建立數(shù)據(jù)倉庫，在數(shù)據(jù)表選取的時候會遇到所謂“實體［5］類似“圣經(jīng)密碼”的無效知識，領(lǐng)域?qū)＜业膮⑴c在該步驟是［3］識別”問題，即同一實體在不同數(shù)據(jù)表中由不同的屬性來表［6］必不可少的。示，通常我們可以通過元數(shù)據(jù)的查詢來解決這一問題。實體識別問題在數(shù)據(jù)表屬性一致化中將得到根本解決。!"數(shù)據(jù)選取#"數(shù)據(jù)表屬性一致化數(shù)據(jù)選取是從用戶的原始數(shù)據(jù)庫中由用戶指定選出用戶感興趣

8、的、與知識發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)表項。用戶在選擇過程當(dāng)待挖掘的數(shù)據(jù)表已經(jīng)選取完畢時，我們開始對這些數(shù)據(jù)中可以通過查看所選數(shù)據(jù)表的記錄數(shù)據(jù)，來作出進(jìn)一步的選擇表中的數(shù)據(jù)進(jìn)行挖掘前的預(yù)處理。首先，在數(shù)據(jù)表的屬性這一判斷。通常用戶都是對數(shù)據(jù)庫中的數(shù)據(jù)包含的某個主題感興層次上進(jìn)行統(tǒng)一。主要解決上邊提到

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf

數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn).pdf

相關(guān)文章

相關(guān)標(biāo)簽