資源描述:
《基于決策樹的數(shù)據(jù)挖掘算法的應(yīng)用與研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于決策樹的數(shù)據(jù)挖掘算法的應(yīng)用與研究摘要:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有用信息、模式和趨勢?;跊Q策樹的分類算法在數(shù)據(jù)挖掘中的應(yīng)用是非常廣泛的。與其他分類算法相比,決策樹具有計算量相對較小、易于提取顯式規(guī)則、可以顯示重要的決策屬性和分類準(zhǔn)確率較高等優(yōu)點。文章主要是研究數(shù)據(jù)挖掘中的決策樹算法以及決策樹算法在具體的客戶關(guān)系管理系統(tǒng)中的研究與分析,對數(shù)據(jù)挖掘中的決策樹技術(shù)做了詳細(xì)的描述。關(guān)鍵詞:數(shù)據(jù)挖掘,決策樹算法,ID3算法,客戶管理中圖分類號:(作者自己填寫)文獻(xiàn)標(biāo)識碼:(作者自己填寫)DataMiningAlgorithmBa
2、sedonDecisionTreeApplicationandResearchAbstract:Dataminingistheextractionoflargeamountsofdatainthepotential,unknownusefulinformation,patternsandtrends.Basedondecisiontreeclassificationalgorithmindataminingapplicationsisveryextensive.Comparedwithotherclassificationalgorithms,d
3、ecisiontreehasacomputationisrelativelysmall,easytoextractexplicitrules,youcandisplayimportantdecision-makingattributesandtheadvantagesofhigherclassificationaccuracy.Thearticleistostudythedecisiontreedataminingalgorithmsanddecisiontreealgorithminaspecificcustomerrelationshipma
4、nagementsystemsresearchandanalysis,decisiontreedataminingtechniquesinadetaileddescription.Keywords:datamining,decisiontreealgorithm,ID3algorithm,customermanagement1背景隨著信息技術(shù)的迅猛發(fā)展,人們可以利用計算機方便的獲取和存儲大量的數(shù)據(jù)。但是,僅僅停留在對于已獲得的數(shù)據(jù)進(jìn)行一些表層的處理(如查詢、統(tǒng)計等)已越來越不能滿足日常工作的需要,因而人們把需要深入挖掘數(shù)據(jù)之間的內(nèi)在關(guān)系和隱含的信
5、息作為下一步的研究目標(biāo)。人們迫切需要一種能夠智能的、自動的將數(shù)據(jù)轉(zhuǎn)換成有用信息和知識的技術(shù)和工具,這種對強有力數(shù)據(jù)分析工具的迫切需求使得數(shù)據(jù)挖掘技術(shù)成為了信息技術(shù)中的一個前沿的焦點。2數(shù)據(jù)挖掘的相關(guān)理論2.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘從大量的,不完整的,有噪聲進(jìn)行模糊隨機在原始數(shù)據(jù),提取隱瞞,人們事先不知道,而且是潛在有用的,可信的,新穎的信息和知識的過程。數(shù)據(jù)挖掘由三個步驟組成:數(shù)據(jù)預(yù)處理階段、模型設(shè)計階段和數(shù)據(jù)分析階段。圖1數(shù)據(jù)挖掘流程1、數(shù)據(jù)預(yù)處理階段(DataPreprocessingPhase)中,特定的業(yè)務(wù)問題必須得到明確的定義,否則數(shù)據(jù)
6、挖掘?qū)⒆兊寐o目的。在業(yè)務(wù)問題的域知識基礎(chǔ)上,該階段的任務(wù)包括驗證、選擇和準(zhǔn)備被要求用來論述問題的數(shù)據(jù)。在構(gòu)造良好的數(shù)據(jù)倉庫環(huán)境里,這些步驟相對簡單些,但是仍然會涉及到對采樣和平衡數(shù)據(jù)的考慮。2、模型設(shè)計階段(ModelDesignPhase)需要深入地檢查數(shù)據(jù),并從中選擇那些顯示與問題最有關(guān)系的字段,它也需要選擇一個正確的數(shù)據(jù)挖掘算法以應(yīng)用于數(shù)據(jù)(如:決策樹、規(guī)則歸納)。然后,最小化地細(xì)分?jǐn)?shù)據(jù),一般需要將數(shù)據(jù)分為一個調(diào)整集或者多個測試集。3、數(shù)據(jù)分析階段(DataAnalysisPhase)典型地包括一個附加的準(zhǔn)備活動(數(shù)據(jù)轉(zhuǎn)換)來重組數(shù)據(jù),以
7、求更好地匹配己選擇的算法和業(yè)務(wù)問題(例如,處理數(shù)據(jù)中缺少的值)。此后將已經(jīng)選擇好的數(shù)據(jù)挖掘工具應(yīng)用于數(shù)據(jù),典型情況下包括創(chuàng)建一個采用數(shù)據(jù)修正集的模型,然后用至少一個測試數(shù)據(jù)的獨立集來證明這個模型。模型的準(zhǔn)確性和有效性需有效的評估。初始的模型將很可能沒法達(dá)到數(shù)據(jù)挖掘的目的,許多反復(fù)是有必要的,尤其是在模型設(shè)計和數(shù)據(jù)分析階段中。2.2決策樹的概念決策樹是作為與樣本屬性結(jié)點,用屬性的取值作為分支的樹型結(jié)構(gòu)。它是進(jìn)行了分析和歸納利用信息理論的原則,分析大規(guī)模的樣本屬性而產(chǎn)生的。決策樹的根節(jié)點是最大的屬性信息的內(nèi)容,在所有樣本。樹的中間節(jié)點是在示例子集的根
8、樹包含的信息內(nèi)容最大的屬性點。決策樹的葉點是樣品類別的價值。決策樹使用新的樣本分類,即通過新的決策樹屬性值測試的樣本,從樹的根節(jié)點開始,