數(shù)據(jù)挖掘weka實(shí)驗(yàn)報(bào)告

數(shù)據(jù)挖掘weka實(shí)驗(yàn)報(bào)告

ID:14117886

大?。?71.48 KB

頁(yè)數(shù):22頁(yè)

時(shí)間:2018-07-26

數(shù)據(jù)挖掘weka實(shí)驗(yàn)報(bào)告_第1頁(yè)
數(shù)據(jù)挖掘weka實(shí)驗(yàn)報(bào)告_第2頁(yè)
數(shù)據(jù)挖掘weka實(shí)驗(yàn)報(bào)告_第3頁(yè)
數(shù)據(jù)挖掘weka實(shí)驗(yàn)報(bào)告_第4頁(yè)
數(shù)據(jù)挖掘weka實(shí)驗(yàn)報(bào)告_第5頁(yè)
資源描述:

《數(shù)據(jù)挖掘weka實(shí)驗(yàn)報(bào)告》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、數(shù)據(jù)挖掘-WAKA實(shí)驗(yàn)報(bào)告數(shù)據(jù)挖掘-WAKA實(shí)驗(yàn)報(bào)告22數(shù)據(jù)挖掘-WAKA實(shí)驗(yàn)報(bào)告一、WEKA軟件簡(jiǎn)介在我所從事的證券行業(yè)中,存在著海量的信息和數(shù)據(jù),但是這些數(shù)據(jù)日常知識(shí)發(fā)揮了一小部分的作用,其包含了大量的隱性的信息并不為所用,但是卻可以為一些公司的決策和對(duì)客戶的服務(wù)提供不小的價(jià)值。因此,我們可以通過(guò)一些數(shù)據(jù)采集、數(shù)據(jù)挖掘來(lái)獲得潛在的有價(jià)值的信息。數(shù)據(jù)挖掘就是通過(guò)分析存在于數(shù)據(jù)庫(kù)里的數(shù)據(jù)來(lái)解決問(wèn)題。在數(shù)據(jù)挖掘中計(jì)算機(jī)以電子化的形式存儲(chǔ)數(shù)據(jù),并且能自動(dòng)的查詢數(shù)據(jù),通過(guò)關(guān)聯(lián)規(guī)則、分類于回歸、聚類分析等算法對(duì)數(shù)據(jù)進(jìn)行一系列的處理,尋找和描述數(shù)據(jù)里的結(jié)構(gòu)模式,進(jìn)而挖掘出潛在的有用

2、的信息。數(shù)據(jù)挖掘就是通過(guò)分析存在于數(shù)據(jù)庫(kù)里的數(shù)據(jù)來(lái)解決問(wèn)題。WEKA的出現(xiàn)讓我們把數(shù)據(jù)挖掘無(wú)需編程即可輕松搞定。WEKA是由新西蘭懷卡托大學(xué)開(kāi)發(fā)的開(kāi)源項(xiàng)目,全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)。WEKA是由JAVA編寫的,它的源代碼可通過(guò)http://www.cs.waikato.ac.nz/ml/WEKA得到,并且限制在GBU通用公眾證書(shū)的條件下發(fā)布,可以運(yùn)行在所有的操作系統(tǒng)中。是一款免費(fèi)的,非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件WEKA作為一個(gè)公開(kāi)的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)

3、算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看WEKA的接口文檔。在WEKA中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。安裝WEKA也十分簡(jiǎn)單,首相要下載安裝JDK環(huán)境,JDK在這個(gè)頁(yè)面可以找到它的下載http://java.sun.com/javase/downloads/index.jsp。點(diǎn)擊JDK6之后的Download按鈕,轉(zhuǎn)到下載頁(yè)面。選擇Accepct,過(guò)一會(huì)兒頁(yè)面會(huì)刷新。我們需要的是這個(gè)WindowsOfflineInstallation,Mult

4、i-languagejdk-6-windows-i586.exe53.16MB,點(diǎn)擊它下載。也可以右鍵點(diǎn)擊它上面的鏈接,在Flashget等工具中下載。安裝它和一般軟件沒(méi)什么區(qū)別。不過(guò)中間會(huì)中斷一下提示你安裝JRE,一并裝上即可。之后就是安裝WEKA軟件,這個(gè)在網(wǎng)上很多地方都有。同樣簡(jiǎn)單地按默認(rèn)方法安裝后即可使用。點(diǎn)擊啟動(dòng)運(yùn)行WEKA軟件后,我門發(fā)現(xiàn)WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF22數(shù)據(jù)挖掘-WAKA實(shí)驗(yàn)報(bào)告(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。我們?nèi)鐖D1通過(guò)軟件的Tools菜單進(jìn)入ArffViewer可以在安裝目

5、錄下查看軟件自帶的幾個(gè)ARFF文件。圖1圖222數(shù)據(jù)挖掘-WAKA實(shí)驗(yàn)報(bào)告如圖2,打開(kāi)文件后選擇data自目錄下的任意一張表,我們都可以看到如圖3所示的二維表格存儲(chǔ)在如下的ARFF文件中。這也就是WEKA自帶的“contact-lenses.arff”文件。這里我們要介紹一下WEKA中的術(shù)語(yǔ)。表格里的一個(gè)橫行稱作一個(gè)實(shí)例(Instance),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)樣本,或者數(shù)據(jù)庫(kù)中的一條記錄。豎行稱作一個(gè)屬性(Attrbute),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)變量,或者數(shù)據(jù)庫(kù)中的一個(gè)字段。這樣一個(gè)表格,或者叫數(shù)據(jù)集,在WEKA看來(lái),呈現(xiàn)了屬性之間的一種關(guān)系(Relation)。圖1中

6、一共有22個(gè)實(shí)例,5個(gè)屬性,關(guān)系名稱為“contact-lenses”。除了ARFF格式,WEKA還支持另外一種常見(jiàn)格式,CSV格式。CSV同樣是一種二進(jìn)制保存的文本格式,我們可以在WEKA中直接打開(kāi)CSV格式的文件,并保存為ARFF格式。這樣就給我提供了把常見(jiàn)的數(shù)據(jù)格式轉(zhuǎn)換為ARFF格式的方法,如對(duì)于Excel文件,我們可以通過(guò)把每張表保存為CSV格式,進(jìn)而保存為ARFF格式,與此同時(shí),我們可以利用filter對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理。而對(duì)于Matlab格式的數(shù)據(jù),我們可以通過(guò)命令csvwrite把數(shù)據(jù)轉(zhuǎn)化成CSV格式的文件,進(jìn)而轉(zhuǎn)化為ARFF格式文件。對(duì)于海量數(shù)據(jù),一般

7、保存在數(shù)據(jù)庫(kù)中,WEKA同時(shí)支持JDBC訪問(wèn)數(shù)據(jù)庫(kù)。圖322數(shù)據(jù)挖掘-WAKA實(shí)驗(yàn)報(bào)告打開(kāi)WEKA,首先出現(xiàn)一個(gè)命令行窗口。原以為要在這個(gè)命令行下寫java語(yǔ)句呢,不過(guò)稍等一秒,WEKAGUIChooser的出現(xiàn)了。這是一個(gè)很簡(jiǎn)單的窗體,提供四個(gè)按鈕:SimpleCLI、Explorer、Experimenter、KnowledgeFlow。SimpleCLI應(yīng)該是一個(gè)使用命令行的界面,有點(diǎn)像SAS的編輯器;Explorer是則是視窗模式下的數(shù)據(jù)挖掘工具;Experimenter和KnowledgeFlow的使用有待進(jìn)一步摸索

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。