《數(shù)據(jù)挖掘、機器學習和weka》

《數(shù)據(jù)挖掘、機器學習和weka》

ID:19852445

大?。?75.50 KB

頁數(shù):29頁

時間:2018-10-07

《數(shù)據(jù)挖掘、機器學習和weka》_第1頁
《數(shù)據(jù)挖掘、機器學習和weka》_第2頁
《數(shù)據(jù)挖掘、機器學習和weka》_第3頁
《數(shù)據(jù)挖掘、機器學習和weka》_第4頁
《數(shù)據(jù)挖掘、機器學習和weka》_第5頁
資源描述:

《《數(shù)據(jù)挖掘、機器學習和weka》》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、數(shù)據(jù)挖掘—實用機器學習技術(shù)及Java實現(xiàn)原書英文版《DataMining—PracticalMachineLearningToolsandTechniqueswithJavaImplementations》,新西蘭IanH.Witten、EibeFrank著WekaAnopensourceframeworkfortextanalysisimplementedinJavathatisbeingdevelopedattheUniversityofWaikatoinNewZealand.http://www.cs.waikato.ac.

2、nz/ml/weka/http://www.mkp.com/datamining/概念:KDD、ML、OLAP與DMKDD(KnowledgeDiscoveryinDatabase)是一種知識發(fā)現(xiàn)的一連串過程。ML(MachineLearning)=KD,不限于Database的數(shù)據(jù)過程:挖掘-數(shù)據(jù)模式-表示-驗證-預測OLAP(OnlineAnalyticalProcess)是數(shù)據(jù)庫在線分析過程。數(shù)據(jù)挖掘(dataMining)只是KDD/ML的一個重要組成部分。DM用在產(chǎn)生假設(shè),而OLAP則用于查證假設(shè)概念:DM與DBData

3、Preparation要占Datamining過程70%工作量「Database」+「Datamining」=會說話的數(shù)據(jù)庫概念:DataMining概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程KeyCharacteristicsofDataMining:LargeamountofdataDiscoveringpreviouslyunknown,hiddeninformationExtractingvaluableinformationMakingimportantbusinessdecision

4、usingtheinformationDM/ML的一些要點Thedataisstoredelectronicallyandthesearchisautomatedbycomputer;Aboutsolvingproblemsbyanalyzingdataalreadypresentindatabases;Definedastheprocessofdiscoveringpatternsindata;Thisbookisabout——Techniquesforfindinganddescribingstructuralpatterns

5、indata.structuralpatterns表示法:表、樹、規(guī)則概念:MachineLearningTolearn:togetknowledgeofstudy,experience,orbeingtaught;tobecomeawarebyinformationorfromobservation;tocommittomemory;tobeinformedof,ascertain(確定);toreceiveinstructionShortcomingswhenitcomestotalkingaboutcomputesIt’sv

6、irtuallyimpossibletotestiflearningasbeanachievedornot.Thistieslearningtoperformanceratherthanknowledge簡單例子:天氣問題*天氣數(shù)據(jù):weather.nominal.arff運行Weka,載入數(shù)據(jù),選擇算法id3預測(決策樹)outlook=rainy

7、windy=TRUE:no

8、windy=FALSE:yes測試方法:采用10Cross-validation的測試結(jié)果:ConfusionMatrix(P.138)和準確率ab<--

9、classifiedas81

10、a=yes14

11、b=noCorrectlyClassifiedInstances1285.7143%IncorrectlyClassifiedInstances214.2857%其他算法:NeuralNetwork數(shù)據(jù)挖掘的過程步驟:見『回顧:DM的步驟』輸入:Concepts,Instances,AttributesConcept四種基本的學習類型Classification,association,clustering,numericprediction不考慮類型,我們把要學習的稱為Concept

12、,而把學習的輸出成為conceptdescriptionInstance:數(shù)據(jù)樣本記錄Attribute:數(shù)據(jù)字段Nominal:outlook:sunny=>noOrdinal:距離無法度量,如hot>mild>coolInterval:距離可度

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。