資源描述:
《數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、.數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用一、數(shù)據(jù)挖掘研究概述1.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘又常被稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),UsamaFayyad等對(duì)其下的定義為:從大量數(shù)據(jù)中獲取有效的、新穎的、潛在而有用的、最終可理解的信息的非平凡過程,這些信息的表現(xiàn)形式有概念、規(guī)則、模式等。數(shù)據(jù)挖掘是一門交叉學(xué)科,其中融合了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)等多個(gè)領(lǐng)域的研究成果,為海量數(shù)據(jù)中的知識(shí)提取提供了一整套面向不同需求的算法。數(shù)據(jù)挖掘是一門實(shí)用性的學(xué)科,其主要特點(diǎn)是對(duì)海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析等處理,并從中歸納出有趣的模式或規(guī)律輔助決策,因此,數(shù)
2、據(jù)挖掘的產(chǎn)生和發(fā)展是和數(shù)據(jù)庫的發(fā)展密切相關(guān)的。二十世紀(jì)六七十年代,數(shù)據(jù)庫技術(shù)處于發(fā)展的初期,數(shù)據(jù)量相對(duì)較小,利用結(jié)構(gòu)化查詢語言SQL已經(jīng)基本能夠滿足事務(wù)處理和數(shù)據(jù)分析的需要;從二十世紀(jì)八十年代開始,隨著先進(jìn)數(shù)據(jù)庫系統(tǒng)、基于web的數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫的誕生和迅速發(fā)展,數(shù)據(jù)量急劇增加,數(shù)據(jù)分析的要求也變得越來越復(fù)雜,這就迫切需要一套從海量數(shù)據(jù)中提取知識(shí)的方法論,因此,數(shù)據(jù)挖掘作為一門獨(dú)立的學(xué)科應(yīng)運(yùn)而生。下圖展示了數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的聯(lián)系,從圖中可以看到,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的基礎(chǔ)。圖1-1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘確切地說,數(shù)據(jù)挖掘只是數(shù)據(jù)庫中的
3、知識(shí)發(fā)現(xiàn),(KnowledgeDiscoveryinDatabase,簡稱KDD)的一個(gè)子過程,但卻代表著獲取知識(shí)的動(dòng)態(tài)過程,因此,常將整個(gè)知識(shí)發(fā)現(xiàn)的過程稱為數(shù)據(jù)挖掘。由圖1-2可知,整個(gè)知識(shí)發(fā)現(xiàn)的過程是由若干挖掘步驟組成,而數(shù)據(jù)挖掘僅僅是其中的一個(gè)主要步驟。整個(gè)知識(shí)發(fā)現(xiàn)的主要步驟有:(1)數(shù)據(jù)清洗(DataCleaning)清除噪聲和無關(guān)挖掘主題的數(shù)據(jù);(2)數(shù)據(jù)集成(DataIntegration)將來源于多個(gè)數(shù)據(jù)源的相關(guān)數(shù)據(jù)進(jìn)行組合;(3)數(shù)據(jù)轉(zhuǎn)換(DataTransformation)將數(shù)據(jù)轉(zhuǎn)換為易于挖掘的數(shù)據(jù)存儲(chǔ)形式;(4)
4、數(shù)據(jù)挖掘(DataMining)知識(shí)發(fā)現(xiàn)的一個(gè)核心步驟,用智能的方法從海量數(shù)據(jù)中提取數(shù)據(jù)模式或規(guī)律;(5)模式評(píng)估(PatternEvaluation)依據(jù)一定的評(píng)估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出具有實(shí)際指導(dǎo)意義的模式;(6)知識(shí)表示(KnowledgePresentation)..利用可視化和知識(shí)表達(dá)技術(shù),對(duì)所提取的知識(shí)進(jìn)行展示。圖1-2數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD)流程示意圖1.2數(shù)據(jù)挖掘的分類和應(yīng)用數(shù)據(jù)挖掘技術(shù)涵蓋的范圍很廣,可以用來解決各類不同的實(shí)際問題,下面從數(shù)據(jù)挖掘的任務(wù)和功能這兩個(gè)不同的角度對(duì)數(shù)據(jù)挖掘進(jìn)行分類。首先,從數(shù)據(jù)挖掘任務(wù)的
5、角度對(duì)數(shù)據(jù)挖掘進(jìn)行分類。數(shù)據(jù)挖掘是以數(shù)據(jù)挖掘任務(wù)為單位的,一個(gè)數(shù)據(jù)挖掘任務(wù)走完數(shù)據(jù)挖掘的整個(gè)流程,其中包含了挖掘的各個(gè)環(huán)節(jié),如圖1-2所示。數(shù)據(jù)挖掘任務(wù)可以分為描述和預(yù)測(cè)兩類:描述性的挖掘任務(wù)刻畫數(shù)據(jù)的一般特性,是對(duì)數(shù)據(jù)中所蘊(yùn)含的規(guī)則的描述,或者根據(jù)數(shù)據(jù)的相似程度將數(shù)據(jù)分成若干組;預(yù)測(cè)性挖掘任務(wù)是在當(dāng)前數(shù)據(jù)的基礎(chǔ)上,對(duì)未來數(shù)據(jù)的某種行為做出預(yù)測(cè),所使用的數(shù)據(jù)都是可以明確知道結(jié)果的。描述和預(yù)測(cè)的主要區(qū)別在于:描述是靜態(tài)的,是抓取數(shù)據(jù)的主要特征,并加以歸納和總結(jié);預(yù)測(cè)是動(dòng)態(tài)的,是指通過學(xué)習(xí),將當(dāng)前學(xué)到的知識(shí)推廣到未來,是更為高級(jí)的一種知識(shí)
6、提取形式。其次,從數(shù)據(jù)挖掘功能的角度對(duì)數(shù)據(jù)挖掘進(jìn)行分類。根據(jù)數(shù)據(jù)挖掘的不同功能,可將數(shù)據(jù)挖掘分成以下幾類:(1)概念描述(ConceptDescription):概念描述是數(shù)據(jù)挖掘最簡單和直接的功能,它指的是以匯總的、簡潔的、精確的方式描述數(shù)據(jù)庫中的大量的細(xì)節(jié)數(shù)據(jù),以方便用戶通過數(shù)據(jù)做出決策。通??梢酝ㄟ^數(shù)據(jù)特征化、數(shù)據(jù)區(qū)分、數(shù)據(jù)特征比較等方法得到概念描述,也可通過一些統(tǒng)計(jì)學(xué)的方法對(duì)數(shù)據(jù)進(jìn)行描述。(2)關(guān)聯(lián)分析(AssociationAnalysis):關(guān)聯(lián)分析是指從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)。關(guān)聯(lián)分析廣泛地應(yīng)用于購物籃或事物數(shù)
7、據(jù)分析中,可以有效地幫助商家制定許多市場(chǎng)營銷方面的決策,使他們知道哪些物品或服務(wù)應(yīng)該被捆綁在一起銷售,以提高銷售額,“啤酒和尿布”的例子是關(guān)聯(lián)規(guī)則最具代表性的應(yīng)用。(3)分類和預(yù)測(cè)(ClassificationandForecast):分類和預(yù)測(cè)是兩種性質(zhì)類似的數(shù)據(jù)分析形式,因?yàn)閮烧叨际歉鶕?jù)當(dāng)前數(shù)據(jù)行為預(yù)測(cè)未來的數(shù)據(jù)行為,所不同的是,分類通常預(yù)測(cè)的是類標(biāo)簽,類標(biāo)簽通常是離散值,而預(yù)測(cè)通常用于對(duì)連續(xù)值的預(yù)測(cè),例如對(duì)某個(gè)連續(xù)屬性的缺失值做出估計(jì)。分類是數(shù)據(jù)挖掘最重要的功能,其實(shí)際應(yīng)用也最為廣泛。(4)..聚類分析(Clustering):
8、聚類和分類的功能類似,都是預(yù)測(cè)類標(biāo)簽,但從學(xué)習(xí)方式的角度看,兩者的實(shí)現(xiàn)機(jī)理卻是相反的;聚類不依賴任何先驗(yàn)知識(shí),只根據(jù)數(shù)據(jù)的某些特征來定義數(shù)據(jù)之間的距離,如使用最簡單的歐式距離,從而衡量數(shù)據(jù)之間的相似度,將相似度大的歸入一