資源描述:
《數(shù)據(jù)挖掘weka實(shí)驗(yàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、南京郵電大學(xué)2013-2014學(xué)年第一學(xué)期《數(shù)據(jù)挖掘》課程大作業(yè)題@:WEKA實(shí)驗(yàn)學(xué)習(xí)體驗(yàn)院系名稱:管理學(xué)院專業(yè)名稱:信息管理與信息系統(tǒng)班級:B101117學(xué)號:B10111733姓名:周亮WEKA實(shí)驗(yàn)學(xué)習(xí)WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),它的源代碼可通過h社p://www.cs.waikato.ac.nz/ml/weka得到。同時weka也是新西蘭的一種鳥名,而WEKA的主要開發(fā)者來自新西蘭。WEKA集合了大量能承擔(dān)數(shù)
2、據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看weka的接口文檔。在weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。使用WEKA作數(shù)據(jù)挖掘,面臨的第一個問題往往是我們的數(shù)據(jù)不是ARFF格式.首先我們來看看WEKA所用的數(shù)據(jù)應(yīng)是什么樣的格式。跟很多電子表格或數(shù)據(jù)分析軟件一樣,WEKA所處理的數(shù)據(jù)集是圖1那樣的一個二維的表格。234_5_67_L91011121314151
3、617181920212223242526ID1210148FEMALEID1210240KALEID1210351FEMALEID1210423FEMALEID1210557FEMALEID1210657FEMALEID1210722MALEID1210858KALEID1210937FEMALEID1211054MALEID12U166FEMALEID1211252FEMALEID1211344FEMALEID1211466FEMALEID1211536HALEID1211638FEMALEID1
4、211737FEMALEID1211846FEMALEID1211962FEMALEID1212031MALEID1212161HALEID1212250KALEID1212354MALEID1212427FEMALEidlagesexID12125TTMncTOWN20375.4YESRURAL50576.3YESTOWN37869.6YESRURAL8877.07NOTOWN24946.6YESSUBURBAN25304.3YESTOWN24212.1YESTOWN59803.9YESINNER.
5、Cn26658.8N3TOWN15735.8YESTOWN55204.7YESRURAL19474.6YESINNER.CII22342.1YESTOWN17729.8YESregionincomemarriedINNER-CIT17546NOTOWN30085.1YESINNER.CII16575.4YESSUBURBAN41016YESINNER.CIT26909.2YESTOWN22522.8YESINNER-CIT57880.7YESTOWN16497.3YESINNER_Cn38446.6Y
6、ESTOWN15538.8NO22KALEINNER.CIT12640.3W3CCUAT17TVATITDCYT41AO4children1cvrzrsave_actcurrent_emortgageNONONOssssssss9e£dedeeeeeeedeeeeeeeM刃ym刃myyyyy刃ym刃yyyyyyYESNOYESYESYESNOYE3YESYESYESsssssssssssssssYEYENONONOYENOYEYEYEsYEsYEvtrr圖1WEKA支持的有四種,分
7、別是numeric數(shù)值型分類(nominal)型string字符串型date[]口期和時間型其中vnominal-specification>和vdate-format>將在下面說明。還可以使用兩個類型“integer”和“real”,但是WEKA把它們都當(dāng)作“numeric”看待。注意“integer”,“real”,“numeric”,“date”,“string”這些關(guān)鍵字是區(qū)分大小寫的,而"relation""attrib
8、ute”和“date”則不區(qū)分。Weka試驗(yàn)(Experiment)環(huán)境可以讓用戶創(chuàng)建,運(yùn)行,修改和分析算法試驗(yàn),這也許比單獨(dú)的分析各個算法更加方便。例如,用戶可創(chuàng)建一次試驗(yàn),在一系列數(shù)據(jù)集上運(yùn)行多個算法(schemes),然后分析結(jié)果以判斷是否某個算法比其他算法(在統(tǒng)計意義下)更好。下面就bank-data表操作學(xué)習(xí)的過程來系統(tǒng)的演示一下:首先是WEKA的開始屏?WekaGUIChooser回在啟動WEKA時,會彈出GUI選擇器,讓您選擇使用WEKA和