資源描述:
《基于數(shù)據(jù)挖掘技術(shù)的客戶流失分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、南京航空航天大學碩士學位論文基于數(shù)據(jù)挖掘技術(shù)的客戶流失分析姓名:楊凱申請學位級別:碩士專業(yè):計算機應用技術(shù)指導教師:高航20040201南京航空航天大學碩士學位論文摘要數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中提取具有潛在價值的知識或模式。本文以江蘇移動通信經(jīng)營分析系統(tǒng)作為背景.研究了數(shù)據(jù)挖掘技術(shù)在客戶流失分析主題中的應用。作者以CRISP—DM作為數(shù)據(jù)挖掘過程的參考模型。在實施數(shù)據(jù)挖掘過程中,根據(jù)神經(jīng)網(wǎng)絡(luò)和決策樹方法各自固有的優(yōu)點,將神經(jīng)網(wǎng)絡(luò)運用于屬性的規(guī)約,而將決策樹用于產(chǎn)生規(guī)則模型。建立的模型無論在生成速度上,還是在預測的準確性以及生成模型的易理解方面都得到了進一步的改進。最后
2、作者給出了模型的應用實現(xiàn)。關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò),決策樹,數(shù)據(jù)挖掘,分類基于數(shù)據(jù)挖掘技術(shù)的客戶流失分析AbstractDataminingistheextractionofpatternsrepresentingvaluableknowledgeimplicitlystoredinlargedatabasesordatawarehouses.Thispaperintroduceshowthedataminingtechnologyapplyinthepredictionofcustomerchurn.TheauthortakesCRISP—DMasthereferencedmodelo
3、fthedataminingprocess.Intheexecutionprocessofdatamining,theauthorreducesthedimensionswiththemethodofneuralnetworklearningandproducerulesetswiththemethodofdecisiontreelearning.TheresultingmodeIiSimprovednotonlyonthespeedoftrainingbutalsoontheclassificationprecisionandintelligibility.Lastlythep
4、aperdiscusseshowtodevelopdataminingapplicationswiththemodelandgivestherealizationinarealproject.Keywords:Neuralnetwork,Decisiontree,Datamining,Classification南京航空航天人學碩士學位論文1.1研究背景第一章緒論隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應用,人們積累的數(shù)據(jù)越來越多。例如:企業(yè)的信息化程度的提高,科學研究和政府部門中電子化事務處理技術(shù)的運用,以及數(shù)據(jù)收集工具和技術(shù)的多元化(從文本掃描到衛(wèi)星遙感)等等。除此之
5、外,互聯(lián)網(wǎng)的發(fā)展更是為我們帶來了海量的數(shù)據(jù)和信息。但存儲在各種數(shù)據(jù)媒介中的海量的數(shù)據(jù),在缺乏強有力的工具的情況下,已經(jīng)遠遠的超出了人的理解和概括的能力。為此,這種大量的原始數(shù)據(jù)和對功能強大的數(shù)據(jù)分析工具的需求共存的局面,被描述為“數(shù)據(jù)豐富,但信息貧乏”(datarichbutinformationpoor)。許多的數(shù)據(jù)庫也就成了“數(shù)據(jù)墳墓”(datatomb)。換句話說,這些數(shù)據(jù)很少被再訪問。激增的數(shù)據(jù)背后隱藏著許多重要的信息,擁有這些數(shù)據(jù)庫的決策者們,在做決策時不是基于數(shù)據(jù)庫中蘊含的大量信息,而是基于決策者的直覺。因為決策者缺乏從海量數(shù)據(jù)中提取有價值知識的工具。傳統(tǒng)的數(shù)據(jù)庫管理
6、系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入,查詢,統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢,缺乏發(fā)現(xiàn)數(shù)據(jù)背后隱藏的知識的手段。數(shù)據(jù)與信息之間的鴻溝要求有更強用力的數(shù)據(jù)分析工具,將數(shù)據(jù)墳墓轉(zhuǎn)換成知識“金塊”12“。在數(shù)據(jù)庫技術(shù)飛速發(fā)展的同時,人工智能領(lǐng)域的一個分支——機器學習的研究自50年代玎始以來也取得了很大進展。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學習的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知Ji:}{,這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases,簡記KDD)的產(chǎn)生。多數(shù)人認為數(shù)據(jù)挖掘(DM)是KDD過
7、程中的一個基本步驟,也是KDD的最重要環(huán)節(jié)12Ⅱ“J?,F(xiàn)在人們往往不加區(qū)分使用KDD和DM這兩個術(shù)語。數(shù)據(jù)挖掘是信息技術(shù)自然演化結(jié)果。信息技術(shù)的發(fā)展大致可以描述為如下的過程:初期的是簡單的數(shù)據(jù)收集和數(shù)據(jù)庫的構(gòu)造;后來發(fā)展到對數(shù)據(jù)的管理,這包括:數(shù)據(jù)存儲,檢索以及數(shù)據(jù)庫事務處理:再后來發(fā)展到對數(shù)據(jù)的分析和理解,這時候出現(xiàn)了數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)。早期的數(shù)據(jù)收集和數(shù)據(jù)庫的建造為數(shù)據(jù)存儲,檢索。和事務處理的技術(shù)的發(fā)展刨造了必要條件,隨著查詢,事務處理等成熟技術(shù)被頻繁的應用在大量的數(shù)