數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究

數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究

ID:10162907

大小:35.00 KB

頁數(shù):12頁

時間:2018-06-12

數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究_第1頁
數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究_第2頁
數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究_第3頁
數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究_第4頁
數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究_第5頁
資源描述:

《數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、數(shù)據(jù)挖掘的預(yù)處理技術(shù)研究摘要:計算機(jī)的應(yīng)用,極大的提高了工作的效率,而數(shù)據(jù)挖掘在計算機(jī)的應(yīng)用中,具有非常重要的作用,本文在數(shù)據(jù)挖掘預(yù)處理技術(shù)概念和特點的基礎(chǔ)上,結(jié)合影響數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用的因素,以及實際使用中存在的問題,從預(yù)處理技術(shù)重視程度、工作人員自身素質(zhì)、預(yù)處理的方式等方面,對數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用的措施,進(jìn)行了深入的研究,希望能給實際的數(shù)據(jù)挖掘工作,提供一定的參考。關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫;預(yù)處理技術(shù)中圖分類號:TP311.13112隨著計算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業(yè)甚至在計算

2、機(jī)應(yīng)用的基礎(chǔ)上,提出了無紙化辦公的理念,在實際應(yīng)用的過程中,計算機(jī)需要存儲大量的數(shù)據(jù),對于企業(yè)用戶來說,很多數(shù)據(jù)具有私密性,如果這些數(shù)據(jù)泄露出去,將會給企業(yè)的發(fā)展帶來嚴(yán)重的影響,甚至造成巨大的經(jīng)濟(jì)損失。受到特殊的歷史因素影響,我國的經(jīng)濟(jì)和科技起步較晚,與西方發(fā)達(dá)國家相比,存在較大的差距,雖然經(jīng)過了多年改革開放的發(fā)展,我國已經(jīng)成為了世界第二大經(jīng)濟(jì)體,計算機(jī)的應(yīng)用水平也有了很大的提高,但是在尖端的數(shù)據(jù)挖掘等領(lǐng)域中,研究的還比較少,而數(shù)據(jù)挖掘等技術(shù),能夠在很大程度上影響數(shù)據(jù)的利用效率,對于實際的工作來說,具有非常重要的作用。1數(shù)據(jù)挖掘的預(yù)處理

3、技術(shù)簡析1.1數(shù)據(jù)挖掘預(yù)處理技術(shù)的概念數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫的發(fā)展,逐漸形成的一門學(xué)科,在計算機(jī)出現(xiàn)的早期,受到其性能和體積的限制,能夠存儲的數(shù)據(jù)很少,不需要考慮數(shù)據(jù)的利用效率,但是隨著晶體管和集成電路的使用,計算機(jī)的性能得到了極大的提高,相應(yīng)的存儲設(shè)備也有了很大的進(jìn)步,計算機(jī)能夠處理的任務(wù)越來越復(fù)雜,存儲的數(shù)據(jù)越來越多,現(xiàn)在我國建成了多個大型數(shù)據(jù)存儲中心,存儲的數(shù)據(jù)量非常巨大。對于如此多的數(shù)據(jù),如何篩選出自己想要的,成為了很大專家和學(xué)者研究的問題,在傳統(tǒng)的數(shù)據(jù)應(yīng)用中,通常都是利用檢索技術(shù),根據(jù)輸入的關(guān)鍵詞,在數(shù)據(jù)庫中進(jìn)行逐個的匹配,

4、如果數(shù)據(jù)庫的存儲量較小,檢索的效率就比較高,而對于現(xiàn)在的海量存儲來說,逐個匹配顯然需要很長的等待時間。數(shù)據(jù)挖掘的預(yù)處理技術(shù),正是在這種背景下出現(xiàn)的,所謂預(yù)處理技術(shù),就是在數(shù)據(jù)挖掘之前,對數(shù)據(jù)進(jìn)行一定的整理,通常情況下,數(shù)據(jù)挖掘主要面對現(xiàn)有的數(shù)據(jù)庫或者互聯(lián)網(wǎng)上海量的數(shù)據(jù),如果在數(shù)據(jù)庫中進(jìn)行挖掘,那么可以對數(shù)據(jù)庫進(jìn)行一定的修改,如完善數(shù)據(jù)分類的方式等,而在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)挖掘,顯然就需要優(yōu)化挖掘的方式,或者縮小數(shù)據(jù)挖掘的范圍等。1.2數(shù)據(jù)挖掘預(yù)處理技術(shù)的特點12與正常的數(shù)據(jù)挖掘技術(shù)相比,如何增加相應(yīng)的預(yù)處理環(huán)節(jié),無疑可以極大的提高數(shù)據(jù)挖掘的

5、效率,如在數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)的挖掘,傳統(tǒng)的挖掘方式下,通常都是利用檢索技術(shù),輸入指定的關(guān)鍵詞后,與數(shù)據(jù)庫中的信息進(jìn)行對比,這樣逐條的進(jìn)行檢索,就可以找到自己想要的數(shù)據(jù),如果數(shù)據(jù)庫存儲的信息量較大,那么利用這樣的挖掘方式,顯然需要很長的等待時間。如果增加相應(yīng)的預(yù)處理環(huán)節(jié),如在數(shù)據(jù)庫中添加索引,對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類,那么在輸入相應(yīng)的關(guān)鍵詞后,首先與索引進(jìn)行匹配,然后在指定類別的數(shù)據(jù)中進(jìn)行對比,這樣的方式,顯然極大的提高了數(shù)據(jù)挖掘的效率,目前使用的數(shù)據(jù)庫中,大多采用了這樣的預(yù)處理技術(shù),取得了很好的應(yīng)用效果。受到特殊歷史因素的影響,我國數(shù)據(jù)庫

6、相關(guān)技術(shù)水平較低,目前我國建設(shè)的大型數(shù)據(jù)庫,都是與國外的技術(shù)公司合建的,通過實際的調(diào)查發(fā)現(xiàn),現(xiàn)在我國還無法自主生產(chǎn)外部存儲設(shè)備,市面上的存儲設(shè)備,都是從外國引進(jìn)的,但是在實際數(shù)據(jù)庫的建設(shè)中,在外國存儲設(shè)備的基礎(chǔ)上,我國也進(jìn)行了大量數(shù)據(jù)挖掘等技術(shù)的研究。1.3數(shù)據(jù)挖掘預(yù)處理技術(shù)的發(fā)展12從某種意義上來說,數(shù)據(jù)挖掘技術(shù)是隨著互聯(lián)網(wǎng)和數(shù)據(jù)庫的應(yīng)用,根據(jù)實際使用的需要,逐漸形成的一門技術(shù),在互聯(lián)網(wǎng)發(fā)展的初期,網(wǎng)絡(luò)上的資源有限,而且受到計算機(jī)性能的限制,沒有太多的娛樂項目,只能瀏覽一些商業(yè)網(wǎng)站等,隨著計算機(jī)的普及應(yīng)用,互聯(lián)網(wǎng)有了很大的發(fā)展,現(xiàn)在已

7、經(jīng)建成了覆蓋世界范圍的因特網(wǎng)。據(jù)最新的統(tǒng)計調(diào)查表明,我國的網(wǎng)民數(shù)量已經(jīng)超過了6億,如果龐大的用戶群體,為我國互聯(lián)網(wǎng)的發(fā)展,提供了堅實的基礎(chǔ),但是通過實際的調(diào)查發(fā)現(xiàn),我國的實際網(wǎng)絡(luò)帶寬,還沒有達(dá)到世界平均水平,即使實際使用的網(wǎng)絡(luò)帶寬較低,我國互聯(lián)網(wǎng)內(nèi)容的發(fā)展速度依然很快,現(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了各種各樣的網(wǎng)站,極大的提高了網(wǎng)絡(luò)建設(shè)水平。在實際的網(wǎng)絡(luò)瀏覽中,面對如此大的信息量,如何找到自己想要的信息,成為了一個實際問題,為了解決這個問題,出現(xiàn)了搜索引擎,只要輸入相應(yīng)的關(guān)鍵詞,搜索引擎就可以很快的找到大量相關(guān)內(nèi)容,然后進(jìn)行必要的篩選,就能夠得到相應(yīng)的

8、數(shù)據(jù),但是隨著互聯(lián)網(wǎng)內(nèi)容的豐富,除了傳統(tǒng)的文字信息外,還有視頻和音頻等數(shù)據(jù),如何在這些數(shù)據(jù)中,進(jìn)行相應(yīng)的挖掘工作,具有較大的難度。2影響數(shù)據(jù)挖掘預(yù)處理技術(shù)的因素2.1預(yù)處理的方式12在實際的數(shù)據(jù)挖掘過程中,

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。