資源描述:
《基于決策樹的數(shù)據(jù)挖掘算法的應(yīng)用與研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于決策樹的數(shù)據(jù)挖掘算法的應(yīng)用與研究摘要:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有用信息、模式和趨勢(shì)?;跊Q策樹的分類算法在數(shù)據(jù)挖掘中的應(yīng)用是非常廣泛的。與其他分類算法相比,決策樹具有計(jì)算量相對(duì)較小、易于提取顯式規(guī)則、可以顯示重要的決策屬性和分類準(zhǔn)確率較高等優(yōu)點(diǎn)。文章主要是研究數(shù)據(jù)挖掘中的決策樹算法以及決策樹算法在具體的客戶關(guān)系管理系統(tǒng)中的研究與分析,對(duì)數(shù)據(jù)挖掘中的決策樹技術(shù)做了詳細(xì)的描述。關(guān)鍵詞:數(shù)據(jù)挖掘,決策樹算法,ID3算法,客戶管理中圖分類號(hào):(作者自己填寫)文獻(xiàn)標(biāo)識(shí)碼:(作者自己填寫)Dat
2、aMiningAlgorithmBasedonDecisionTreeApplicationandResearchAbstract:Dataminingistheextractionoflargeamountsofdatainthepotential,unknownusefulinformation,patternsandtrends.Basedondecisiontreeclassificationalgorithmindataminingapplicationsisveryextensive.Compare
3、dwithotherclassificationalgorithms,decisiontreehasacomputationisrelativelysmall,easytoextractexplicitrules,youcandisplayimportantdecision-makingattributesandtheadvantagesofhigherclassificationaccuracy.Thearticleistostudythedecisiontreedataminingalgorithmsand
4、decisiontreealgorithminaspecificcustomerrelationshipmanagementsystemsresearchandanalysis,decisiontreedataminingtechniquesinadetaileddescription.Keywords:datamining,decisiontreealgorithm,ID3algorithm,customermanagement1背景隨著信息技術(shù)的迅猛發(fā)展,人們可以利用計(jì)算機(jī)方便的獲取和存儲(chǔ)大量的數(shù)據(jù)。但是,
5、僅僅停留在對(duì)于已獲得的數(shù)據(jù)進(jìn)行一些表層的處理(如查詢、統(tǒng)計(jì)等)已越來越不能滿足日常工作的需要,因而人們把需要深入挖掘數(shù)據(jù)之間的內(nèi)在關(guān)系和隱含的信息作為下一步的研究目標(biāo)。人們迫切需要一種能夠智能的、自動(dòng)的將數(shù)據(jù)轉(zhuǎn)換成有用信息和知識(shí)的技術(shù)和工具,這種對(duì)強(qiáng)有力數(shù)據(jù)分析工具的迫切需求使得數(shù)據(jù)挖掘技術(shù)成為了信息技術(shù)中的一個(gè)前沿的焦點(diǎn)。2數(shù)據(jù)挖掘的相關(guān)理論2.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘從大量的,不完整的,有噪聲進(jìn)行模糊隨機(jī)在原始數(shù)據(jù),提取隱瞞,人們事先不知道,而且是潛在有用的,可信的,新穎的信息和知識(shí)的過程。數(shù)據(jù)挖掘由三個(gè)步
6、驟組成:數(shù)據(jù)預(yù)處理階段、模型設(shè)計(jì)階段和數(shù)據(jù)分析階段。圖1數(shù)據(jù)挖掘流程1、數(shù)據(jù)預(yù)處理階段(DataPreprocessingPhase)中,特定的業(yè)務(wù)問題必須得到明確的定義,否則數(shù)據(jù)挖掘?qū)⒆兊寐o目的。在業(yè)務(wù)問題的域知識(shí)基礎(chǔ)上,該階段的任務(wù)包括驗(yàn)證、選擇和準(zhǔn)備被要求用來論述問題的數(shù)據(jù)。在構(gòu)造良好的數(shù)據(jù)倉庫環(huán)境里,這些步驟相對(duì)簡(jiǎn)單些,但是仍然會(huì)涉及到對(duì)采樣和平衡數(shù)據(jù)的考慮。2、模型設(shè)計(jì)階段(ModelDesignPhase)需要深入地檢查數(shù)據(jù),并從中選擇那些顯示與問題最有關(guān)系的字段,它也需要選擇一個(gè)正確的數(shù)據(jù)挖掘算
7、法以應(yīng)用于數(shù)據(jù)(如:決策樹、規(guī)則歸納)。然后,最小化地細(xì)分?jǐn)?shù)據(jù),一般需要將數(shù)據(jù)分為一個(gè)調(diào)整集或者多個(gè)測(cè)試集。3、數(shù)據(jù)分析階段(DataAnalysisPhase)典型地包括一個(gè)附加的準(zhǔn)備活動(dòng)(數(shù)據(jù)轉(zhuǎn)換)來重組數(shù)據(jù),以求更好地匹配己選擇的算法和業(yè)務(wù)問題(例如,處理數(shù)據(jù)中缺少的值)。此后將已經(jīng)選擇好的數(shù)據(jù)挖掘工具應(yīng)用于數(shù)據(jù),典型情況下包括創(chuàng)建一個(gè)采用數(shù)據(jù)修正集的模型,然后用至少一個(gè)測(cè)試數(shù)據(jù)的獨(dú)立集來證明這個(gè)模型。模型的準(zhǔn)確性和有效性需有效的評(píng)估。初始的模型將很可能沒法達(dá)到數(shù)據(jù)挖掘的目的,許多反復(fù)是有必要的,尤其是在
8、模型設(shè)計(jì)和數(shù)據(jù)分析階段中。2.2決策樹的概念決策樹是作為與樣本屬性結(jié)點(diǎn),用屬性的取值作為分支的樹型結(jié)構(gòu)。它是進(jìn)行了分析和歸納利用信息理論的原則,分析大規(guī)模的樣本屬性而產(chǎn)生的。決策樹的根節(jié)點(diǎn)是最大的屬性信息的內(nèi)容,在所有樣本。樹的中間節(jié)點(diǎn)是在示例子集的根樹包含的信息內(nèi)容最大的屬性點(diǎn)。決策樹的葉點(diǎn)是樣品類別的價(jià)值。決策樹使用新的樣本分類,即通過新的決策樹屬性值測(cè)試的樣本,從樹的根節(jié)點(diǎn)開始,