資源描述:
《weka平臺(tái)使用方法 關(guān)聯(lián)+分聚類(lèi)》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、目錄1第一章11.1知識(shí)獲取平臺(tái)—Weka簡(jiǎn)介11.2第二節(jié)Weka中的數(shù)據(jù)準(zhǔn)備41.3第三節(jié)Weka運(yùn)行演示62第二章關(guān)聯(lián)規(guī)則(購(gòu)物籃分析)102.1第一節(jié)關(guān)聯(lián)規(guī)則與相關(guān)概念102.2第二節(jié)關(guān)聯(lián)規(guī)則基本模型112.3第三節(jié)關(guān)聯(lián)挖掘123.第三章聚類(lèi)方法153.1第一節(jié)聚類(lèi)分析方法153.2聚類(lèi)分析中的數(shù)據(jù)類(lèi)型及數(shù)據(jù)結(jié)構(gòu)153.3聚類(lèi)分析中孤立點(diǎn)163.4聚類(lèi)算法的分析174.第四章分類(lèi)與回歸204.1選擇算法204.2建模結(jié)果224.3模型應(yīng)用234.4使用命令行(推薦)24第一節(jié)通過(guò)分類(lèi)挖掘進(jìn)行信息獲取26第二節(jié)貝葉斯分類(lèi)方法簡(jiǎn)介27第三節(jié)在Weka中使
2、用貝葉斯算法對(duì)bank-data建立分類(lèi)模型281第一章1.1知識(shí)獲取平臺(tái)—Weka簡(jiǎn)介◆Weka簡(jiǎn)介Weka是由新西蘭懷卡托大學(xué)開(kāi)發(fā)的智能分析系統(tǒng)(WaikatoEnvironmentforKnowledgeAnalysis)。在懷卡托大學(xué)以外的地方,Weka通常按諧音念成Mecca,是一種現(xiàn)今僅存活于新西蘭島的,健壯的棕色鳥(niǎo),非常害羞,好奇心很強(qiáng),但不會(huì)飛。Weka是用Java寫(xiě)成的,它可以運(yùn)行于幾乎所有的操作平臺(tái),包括Linux,Windows等操作系統(tǒng)。Weka平臺(tái)提供一個(gè)統(tǒng)一界面,匯集了當(dāng)今最經(jīng)典的機(jī)器學(xué)習(xí)算法及數(shù)據(jù)預(yù)處理工具。做為知識(shí)獲取的完整系
3、統(tǒng),包括了數(shù)據(jù)輸入、預(yù)處理、知識(shí)獲取、模式評(píng)估等環(huán)節(jié),以及對(duì)數(shù)據(jù)及學(xué)習(xí)結(jié)果的可視化操作。并且可以通過(guò)對(duì)不同的學(xué)習(xí)方法所得出的結(jié)果進(jìn)行比較,找出解決當(dāng)前問(wèn)題的最佳算法。2005年8月,在第11屆ACMSIGKDD國(guó)際會(huì)議上,懷卡托大學(xué)的Weka小組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),Weka系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一(已有11年的發(fā)展歷史)。Weka的每月下載次數(shù)已超過(guò)萬(wàn)次。◆Weka平臺(tái)在哪里下載?如何安裝?用戶(hù)可到http://www.cs.waikato.ac.nz/ml/weka/
4、index_downloading.html上下載與具體操作系統(tǒng)相匹配的安裝文件,然后在已安裝了Java的機(jī)器上以通常的方式運(yùn)行weka3.5.5.exe。https://liulizhen.ie.cnu.edu.cn用戶(hù)名:liulizhen口令:2001123◆Weka包含了什么?Weka提供了許多用于數(shù)據(jù)可視化及預(yù)處理的工具(也稱(chēng)作過(guò)濾器),包括種類(lèi)繁多的用于數(shù)據(jù)集轉(zhuǎn)換的工具等。所有機(jī)器學(xué)習(xí)算法對(duì)輸入數(shù)據(jù)都要求其采用ARFF格式。Weka作為一個(gè)公開(kāi)的知識(shí)過(guò)去的工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)(知識(shí))挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括分類(lèi),回歸、聚類(lèi)、關(guān)聯(lián)規(guī)則
5、等。如果想實(shí)現(xiàn)自己提出或改進(jìn)的數(shù)據(jù)挖掘算法,可以根據(jù)Weka的接口文檔,在Weka中集成自己的算法?!鬢eka的使用方法一、是將一種學(xué)習(xí)方法應(yīng)用于一個(gè)數(shù)據(jù)集,然后分析其輸出,從而更多地了解這些數(shù)據(jù)(分析數(shù)據(jù)集的潛在知識(shí))。二、是使用已學(xué)習(xí)到的模型對(duì)新的實(shí)例做出分類(lèi)預(yù)測(cè)三、是應(yīng)用幾種不同的學(xué)習(xí)器,再根據(jù)它們的性能表現(xiàn)選擇其中一種用來(lái)做預(yù)測(cè)。在Weka中將學(xué)習(xí)方法又稱(chēng)作分類(lèi)器或?qū)W習(xí)器,用戶(hù)可在Weka互動(dòng)式界面的菜單中選擇一種想要的分類(lèi)器。許多分類(lèi)器帶有可調(diào)節(jié)的參數(shù),這些參數(shù)可通過(guò)屬性列表或?qū)ο缶庉嬈鬟M(jìn)行更改。所有學(xué)習(xí)器的性能都是通過(guò)一個(gè)共同的評(píng)估模塊進(jìn)行衡量。
6、與選擇學(xué)習(xí)器一樣,用戶(hù)也要從菜單中選擇能滿(mǎn)足或?qū)?yīng)該學(xué)習(xí)器的過(guò)濾器(進(jìn)行數(shù)據(jù)預(yù)處理)。不同的過(guò)濾器具有不同的參數(shù)。Weka與許多數(shù)據(jù)分析軟件一樣,Weka所處理的數(shù)據(jù)集是一個(gè)二維的表格這里我們要介紹一下Weka中的術(shù)語(yǔ)。表格里的一個(gè)橫行稱(chēng)作一個(gè)實(shí)例(Instance),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)樣本,或者數(shù)據(jù)庫(kù)中的一條記錄。豎行稱(chēng)作一個(gè)屬性(Attrbute),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)變量,或者數(shù)據(jù)庫(kù)中的一個(gè)字段。這樣一個(gè)表格叫做數(shù)據(jù)集,在Weka看來(lái),呈現(xiàn)了屬性之間的一種關(guān)系(Relation)。圖中一共有14個(gè)實(shí)例,5個(gè)屬性,關(guān)系名稱(chēng)為“weather”。Weka
7、存儲(chǔ)數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。圖1所示的二維表格存儲(chǔ)在如下的ARFF文件中。這也就是Weka自帶的“weather.arff”文件,在Weka安裝目錄的“data”子目錄下可以找到。簡(jiǎn)單說(shuō)明在第三列數(shù)據(jù)85908696...是相應(yīng)的“humidity”值。其次,最后一個(gè)聲明的屬性被稱(chēng)作class屬性,在分類(lèi)或回歸任務(wù)中,它是默認(rèn)的目標(biāo)變量。都是以字母開(kāi)頭的字符串每個(gè)實(shí)例占一行。實(shí)例的各屬性值用逗號(hào)“,”隔開(kāi)。如果某個(gè)屬性的值是缺失值(missingvalue),用問(wèn)號(hào)“
8、?”表示.如:@datasunny,85,85,FA