資源描述:
《基于粗糙集與神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于粗糙集與神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘應(yīng)用 摘要:本論文就是根據(jù)電信行業(yè)需求,針對(duì)電信企業(yè)擁有大量詳實(shí)而且豐富的數(shù)據(jù),但是可用有效數(shù)據(jù)提取困難這一問(wèn)題。首先利用粗糙集理論中的差別矩陣方法對(duì)電信客戶數(shù)據(jù)進(jìn)行屬性約簡(jiǎn),之后采用BP(BackPropagation)神經(jīng)網(wǎng)絡(luò)建立基于粗糙集和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘模型,實(shí)現(xiàn)對(duì)電信業(yè)務(wù)系統(tǒng)的客戶數(shù)據(jù)信息進(jìn)行有效分析和高效提取,并通過(guò)matlab實(shí)現(xiàn)了仿真模擬。所建立的模型,減少神經(jīng)網(wǎng)絡(luò)的輸入層個(gè)數(shù)、簡(jiǎn)化了運(yùn)算次數(shù)、縮短了訓(xùn)練時(shí)間并提高數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確度。Abstract:Basedontheneedsofthetelecommuni
2、cationsindustry,fortelecommunicationscompanieswhichhavealargenumberofdetailedandrichdata,butitisdifficultfortheextractionofavailablevaliddata.First,thispapercarriedoutattributereductiontotelecommunicationscustomerdatausingthedifferencematrixmethodofroughsettheory,andthenestablished
3、dataminingmodelbasedonroughsetandneuralnetwork,usingBP(BackPropagation)neuralnetwork,toachieveeffectiveanalysisandefficientextractiontocustomerdata7informationoftelecommunicationservicessystem,andrealizesimulationbymatlab.Theestablishedmodelreducesthenumberoftheinputlayeroftheneura
4、lnetwork,andsimplifiesthenumberofoperations,shortensthetrainingtimeandimprovestheaccuracyofthedataforecast.關(guān)鍵詞:粗糙集;BP神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)挖掘Keywords:roughsets;BPneuralnetwork;datamining中圖分類號(hào):TP39文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2013)07-0185-020引言數(shù)據(jù)挖掘(DataMining—DM)[1]就是從海量的、不完整的、雜亂無(wú)規(guī)律的、模棱兩可的、隨機(jī)的數(shù)據(jù)庫(kù)中,提取隱含的、
5、人們無(wú)法通過(guò)表面現(xiàn)象觀察到的、但又對(duì)人們提供決策支持具有重要意義的信息和知識(shí)的過(guò)程。通過(guò)數(shù)據(jù)挖掘定義可知,數(shù)據(jù)挖掘就是將存儲(chǔ)在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的對(duì)提供決策支持具有重要意義的信息和知識(shí)進(jìn)行發(fā)現(xiàn)的過(guò)程。因此,數(shù)據(jù)挖掘又常被稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)。1粗糙集理論定義17所謂的論域就是我們要研究的非空的數(shù)據(jù)組成的集合,即電信客戶數(shù)據(jù)集一般被存儲(chǔ)在數(shù)據(jù)庫(kù)中,一般情況下用符號(hào)U表示。設(shè)X為U中的子集,則任何子集X?哿U,稱為U中的一個(gè)概念或范疇,U中的任何概念族成為關(guān)于U的抽象知識(shí),簡(jiǎn)稱為知識(shí)[1]。對(duì)知識(shí)的劃分公式如下:ξ=X■,X■,……X■;X■?奐U,
6、X■?奐?覫,X■∩X■=?覫對(duì)于i≠j;i,j=1,2,…,n;■X■=U。其中Xn代表各個(gè)屬性。定義2若P滿足關(guān)系式P?哿R,且P非空,稱R為P上的不可區(qū)分關(guān)系,記為ind(P)[1,5],且有如下關(guān)系式:[x]■=■[x]■若K=(U,P)和K′=(U,Q)為兩個(gè)知識(shí)庫(kù),且滿足關(guān)系ind(P)=ind(Q),即U/P=U/Q,則稱K和K′是等價(jià)的,記作K~K′。定義3知識(shí)約簡(jiǎn)中有兩個(gè)基本概念[2,5]:約簡(jiǎn)(reduct)和核(core),兩個(gè)是包含關(guān)系,滿足關(guān)系式core?哿reduct。設(shè)R和r為兩個(gè)等價(jià)關(guān)系,且存在關(guān)系式r∈R,如果ind(R)=
7、ind(R{r})7則稱r為R中不必要的,r是冗余的、干擾屬性,在屬性約簡(jiǎn)過(guò)程中可以將r屬性刪除掉,而且不會(huì)影響制定決策;否則r為R中必須保留的屬性,也正是我們做屬性約簡(jiǎn)想要得到的條件屬性。設(shè)Q?哿P,如果Q是獨(dú)立的,且ind(Q)=ind(P),則稱Q為P的一個(gè)約簡(jiǎn);顯然,P可以有多個(gè)約簡(jiǎn)。P的核記作core(P),P的核是P中所有必要關(guān)系的集合。2差別矩陣屬性約簡(jiǎn)算法優(yōu)化算法差別矩陣又稱為區(qū)分矩陣(discernibilitymatrix),是粗糙集對(duì)數(shù)據(jù)進(jìn)行屬性約簡(jiǎn)的一種方法,這種方法有許多優(yōu)點(diǎn),但是最突出的優(yōu)點(diǎn)就是它能容易地計(jì)算約簡(jiǎn)和核[3]。設(shè)知識(shí)
8、表達(dá)系統(tǒng)為S=(U,A,V,f),根據(jù)數(shù)據(jù)域U生成的