資源描述:
《數(shù)據(jù)挖掘的應(yīng)用new》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用近年來隨著數(shù)據(jù)庫和計(jì)算機(jī)網(wǎng)絡(luò)的廣泛應(yīng)用,加上使用先進(jìn)的自動數(shù)據(jù)生成和采集工具,人們所擁有的數(shù)據(jù)量急劇增大。條形碼技術(shù)在商業(yè)上的普遍使用使得很多行業(yè)每天都積累了大量數(shù)據(jù),如超級市場上的POS系統(tǒng)每天都要存儲上萬筆的顧客購買數(shù)據(jù)。先進(jìn)的現(xiàn)代科學(xué)觀測儀器的使用造成每天都要產(chǎn)生巨量的數(shù)據(jù),如各種同步衛(wèi)星每小時傳回地球的遙感圖像數(shù)據(jù)就達(dá)50giga(千兆)字節(jié)。Internet的迅猛發(fā)展使得網(wǎng)絡(luò)上的各種資源信息異常豐富,在其中進(jìn)行信息的查找真如大海撈針?! ?shù)據(jù)的
2、迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來越突出,人們也希望能夠在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望"數(shù)"興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。數(shù)據(jù)挖掘從大量數(shù)據(jù)中提取出隱藏在數(shù)據(jù)之后的有用的信息,它被越來越多的領(lǐng)域所采用,并取得了較好的效果,為人們的正確決策提供了很大的幫助?! 】茖W(xué)研究: 從科學(xué)研究方法學(xué)的角度看,科學(xué)研究可分為三類:理論科學(xué)、實(shí)驗(yàn)科學(xué)和計(jì)算科學(xué)。計(jì)算科學(xué)是現(xiàn)
3、代科學(xué)的一個重要標(biāo)志。計(jì)算科學(xué)工作者主要和數(shù)據(jù)打交道,每天要分析各種大量的實(shí)驗(yàn)或觀測數(shù)據(jù)。隨著先進(jìn)的科學(xué)數(shù)據(jù)收集工具的使用,如觀測衛(wèi)星、遙感器、DNA分子技術(shù)等,數(shù)據(jù)量非常大,傳統(tǒng)的數(shù)據(jù)分析工具無能為力,因此必須有強(qiáng)大的智能型自動數(shù)據(jù)分析工具才行?! ?shù)據(jù)挖掘在天文學(xué)上有一個非常著名的應(yīng)用系統(tǒng):SKICAT(SkyImageCatalogingandAnalysisTool)。它是美國加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室(即設(shè)計(jì)火星探測器漫游者號的實(shí)驗(yàn)室)與天文科學(xué)家合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體的一個工具。SKICAT
4、既是第一個獲得相當(dāng)成功的數(shù)據(jù)挖掘應(yīng)用,也是人工智能技術(shù)在天文學(xué)和空間科學(xué)上第一批成功應(yīng)用之一。利用SKICAT,天文學(xué)家已發(fā)現(xiàn)了16個新的極其遙遠(yuǎn)的類星體,該項(xiàng)發(fā)現(xiàn)能幫助天文工作者更好地研究類星體的形成以及早期宇宙的結(jié)構(gòu)。 數(shù)據(jù)挖掘在生物學(xué)上的應(yīng)用主要集中于分子生物學(xué)特別是基因工程的研究上。基因研究中,有一個著名的國際性研究課題——人類基因組計(jì)劃。據(jù)報(bào)道,1997年3月,科學(xué)家宣布已完成第一步計(jì)劃:繪制人類染色體基因圖。然而這僅僅是第一步,更重要的是對基因圖進(jìn)行解釋從而發(fā)現(xiàn)各種蛋白質(zhì)(有10,000多種不同功能的蛋白質(zhì))
5、和RNA分子的結(jié)構(gòu)和功能。近幾年,通過用計(jì)算生物分子系列分析方法,尤其是基因數(shù)據(jù)庫搜索技術(shù)已在基因研究上作出了很多重大發(fā)現(xiàn)?! ∈袌鲂袖N 由于管理信息系統(tǒng)和POS系統(tǒng)在商業(yè)尤其是零售業(yè)內(nèi)的普遍使用,特別是條形碼技術(shù)的使用,從而可以收集到大量關(guān)于用戶購買情況的數(shù)據(jù),并且數(shù)據(jù)量在不斷激增。對市場行銷來說,通過數(shù)據(jù)分析了解客戶購物行為的一些特征,對提高競爭力及促進(jìn)銷售是大有幫助的。利用數(shù)據(jù)挖掘技術(shù)通過對用戶數(shù)據(jù)的分析,可以得到關(guān)于顧客購買取向和興趣的信息,從而為商業(yè)決策提供了可靠的依據(jù)。數(shù)據(jù)庫數(shù)據(jù)挖掘在行銷業(yè)上的應(yīng)用可分為
6、兩類:數(shù)據(jù)庫行銷(databasemarketing)和貨籃分析(basketanalysis)?! ?shù)據(jù)庫行銷的任務(wù)是通過交互式查詢、數(shù)據(jù)分割和模型預(yù)測等方法來選擇潛在的顧客以便向它們推銷產(chǎn)品,通過對已有的顧客數(shù)據(jù)的分析,可以將用戶分為不同級別,級別越高,其購買的可能性就越大。為進(jìn)行行銷分析,首先必須將已有的用戶信息進(jìn)行手工分類,分類的依據(jù)可以由專家根據(jù)用戶的實(shí)際表現(xiàn)給出,這樣得到訓(xùn)練數(shù)據(jù)后,由數(shù)據(jù)挖掘進(jìn)行學(xué)習(xí)將用戶進(jìn)行分類的模式,這樣當(dāng)一個新用戶到來時,可以有已經(jīng)學(xué)習(xí)后的系統(tǒng)給出其購買可能性的預(yù)測結(jié)果,從而可以根據(jù)結(jié)果
7、有針對性地對顧客進(jìn)行推銷。 貨籃分析是分析市場銷售數(shù)據(jù)(如POS數(shù)據(jù)庫)以識別顧客的購買行為模式,例如:如果A商品被選購,那么B商品被購買的可能性為95%,從而幫助確定商店貨架的布局排放以促銷某些商品,并且對進(jìn)貨的選擇和搭配上也更有目的性。這方面的系統(tǒng)有:OpportunityExplorer,它可用于超市商品銷售異常情況的因果分析等;另外IBM公司也開發(fā)了識別顧客購買行為模式的一些工具(IntelligentMiner和QUEST中的一部分)?! 〗鹑谕顿Y 典型的金融分析領(lǐng)域有投資評估和股票交易市場預(yù)測,分析方法一般
8、采用模型預(yù)測法(如神經(jīng)網(wǎng)絡(luò)或統(tǒng)計(jì)回歸技術(shù))。由于金融投資的風(fēng)險(xiǎn)很大,在進(jìn)行投資決策時,更需要通過對各種投資方向的有關(guān)數(shù)據(jù)進(jìn)行分析,以選擇最佳的投資方向。目前國內(nèi)有很多進(jìn)行股票分析的軟件,并且定期有專家進(jìn)行股票交易預(yù)測,這些人工的預(yù)測一般是根據(jù)自己的經(jīng)驗(yàn)再通過對已有的股票數(shù)據(jù)的分析而得到的,由于是人工處理