weka數(shù)據(jù)挖掘?qū)嶒?報告.pdf

weka數(shù)據(jù)挖掘?qū)嶒?報告.pdf

ID:47995388

大?。?.08 MB

頁數(shù):8頁

時間:2020-01-11

weka數(shù)據(jù)挖掘?qū)嶒?報告.pdf_第1頁
weka數(shù)據(jù)挖掘?qū)嶒?報告.pdf_第2頁
weka數(shù)據(jù)挖掘?qū)嶒?報告.pdf_第3頁
weka數(shù)據(jù)挖掘?qū)嶒?報告.pdf_第4頁
weka數(shù)據(jù)挖掘?qū)嶒?報告.pdf_第5頁
資源描述:

《weka數(shù)據(jù)挖掘?qū)嶒?報告.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、數(shù)據(jù)挖掘?qū)嶒瀳蟾嫘彰盒辖鹧銓W號:091070106專業(yè):電子商務(wù)091070106邢金雁web數(shù)據(jù)挖掘?qū)嶒瀳蟾鎸嶒灦?、實驗名稱:基于關(guān)聯(lián)規(guī)則的信息獲取二、實驗目的:通過一個已有的訓練數(shù)據(jù)集,觀察訓練集中的實例,進行關(guān)聯(lián)信息獲取,更好地理解和掌握關(guān)聯(lián)規(guī)則算法的基本原理,建立相應(yīng)的預測模型,然后對新的未知實例進行預測,預測的準確程度來衡量所建立模型的好壞。三、實驗要求1、熟悉Weka平臺2、掌握關(guān)聯(lián)規(guī)則算法3、對數(shù)據(jù)進行預處理,利用Weka和不同參數(shù)設(shè)置進行關(guān)聯(lián)分析,對比結(jié)果,得出結(jié)論,對問題進行總結(jié)。四、實驗平臺新西蘭懷卡

2、托大學研制的Weka系統(tǒng)。頁1091070106邢金雁web數(shù)據(jù)挖掘?qū)嶒瀳蟾鎸嶒灢襟E數(shù)據(jù)實驗1.數(shù)據(jù)準備選擇Filter中的Discretize方法,點擊Apply,先對ARFF文件進行離散化:用UltraEdit對其進行編輯:@attributechildrennumeric改為:@attributechildren{0,1,2,3}然后用discretize算法對age和income離散化,并刪掉id項因為它對關(guān)聯(lián)規(guī)則分析無影響,保存文件。圖1——first-last離散化頁2091070106邢金雁web數(shù)據(jù)挖掘?qū)嶒瀳?/p>

3、告圖2——UltraEdit編輯圖3——針對屬性1age和屬性4income進行離散化頁3091070106邢金雁web數(shù)據(jù)挖掘?qū)嶒瀳蟾?.選擇Associate項中的Apriori算法分析進行關(guān)聯(lián)信息獲取,并進行參數(shù)設(shè)置。圖4——離散化后的Apriori算法結(jié)果圖5——變換參數(shù)得到不同結(jié)果頁4091070106邢金雁web數(shù)據(jù)挖掘?qū)嶒瀳蟾胬纾含F(xiàn)在我們計劃挖掘出支持度在10%到100%之間,并且lift值超過1.5且lift值排在前10位的那些關(guān)聯(lián)規(guī)則。把“l(fā)owerBoundMinSupport”和“upperBound

4、MinSupport”分別設(shè)為0.1和1,“metricType”設(shè)為lift,“minMetric”設(shè)為1.5,“numRules”設(shè)為100。其他選項保持默認?!癘K”之后在“Explorer”中點擊“Start”開始運行算法,在右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果圖6——舉例結(jié)果頁5091070106邢金雁web數(shù)據(jù)挖掘?qū)嶒瀳蟾鎸嶒瀱栴}解答1.對于非xls格式的數(shù)據(jù)如何轉(zhuǎn)換成ARFF數(shù)據(jù)類型?請給出你了解到的幾種數(shù)據(jù)類型到ARFF的轉(zhuǎn)換方式?答:(1)CSV→ARFF:1)用weka中的ArffView打開csv文件,然后

5、另存為arff文件。2)用weka的“SimpleCLI”模塊的命令行功能。在新窗口的最下方輸入框輸入javaweka.core.converters.CSVLoaderfilename.csv>filename.arff即可完成轉(zhuǎn)換。3)進入“Exploer”模塊,從上方的按鈕中打開CSV文件然后另存為ARFF文件亦可。(2)TXT→ARFF:用Excel打開txt文件,然后另存為arff文件(逗號分隔),然后再利用weka將csv文件轉(zhuǎn)化為arff文件(3)C4.5→ARFF:方法同CSV(4)MAT→ARFF:在Mat

6、lab中通過命令csvwrite('filename',matrixname)把一個矩陣存成CSV格式,再通過weka把CSV轉(zhuǎn)化為ARFF。需要注意的是,Matlab給出的CSV文件往往沒有屬性名,因此對于Matlab給出的CSV文件需要用文本編輯軟件打開,手工添加一行屬性名。注意屬性名的個數(shù)要跟數(shù)據(jù)屬性的個數(shù)一致,仍用逗號隔開。2.在算法出來的lift排前1的規(guī)則中,如:age=52_maxsave_act=YEScurrent_act=YES113==>income=43759_max61conf:(0.54)

7、t:(4.05)>lev:(0.08)[45]conv:(1.85)請說明其中113、61、conf:(0.54)都表示什么含義?答:113表示項目集{age=52_maxsave_act=YEScurrent_act=YES}出現(xiàn)的次數(shù),61表示事務(wù)income=43759_max在前者出現(xiàn)的情況下出現(xiàn)的次數(shù),conf:(0.54)表示:0.54≈61/113,即該條規(guī)則的置信度。3.請問:通過在左下方“Resultlist”列出的結(jié)果上右擊,點“Visualizeclusterassignments”。彈出的窗口是否能給

8、出實例完成后的可視化結(jié)果,如果有,請截圖,并在實驗報告中給出詳解。答:右鍵點擊沒有“Visualizeclusterassignments”選項,因此不能可視化頁6091070106邢金雁web數(shù)據(jù)挖掘?qū)嶒瀳蟾骓?

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。