資料探勘 -4 資料精簡

資料探勘 -4 資料精簡

ID:46442364

大小:279.50 KB

頁數(shù):44頁

時間:2019-11-23

資料探勘 -4 資料精簡_第1頁
資料探勘 -4 資料精簡_第2頁
資料探勘 -4 資料精簡_第3頁
資料探勘 -4 資料精簡_第4頁
資料探勘 -4 資料精簡_第5頁
資源描述:

《資料探勘 -4 資料精簡》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、資料精簡(DataReduction)1內(nèi)容概要簡介資料精簡所包含之觀點資料維度精簡(DimensionReduction)資料記錄精簡(RecordReduction)資料數(shù)值精簡(ValueReduction)2簡介(1)資料精簡在資料探勘過程中所扮演的角色應(yīng)用在資料的前置處理階段(pre-processingphase)從資料集合中挑選、過濾出具代表性的資料,進而r減少整個資料探勘的時間和成本整個資料探勘過程都可以應(yīng)用資料精簡的技術(shù)前置處理階段(pre-processingphase)探勘階段(miningphase

2、)後置處理階段(post-processingphase)3簡介(2)前置處理階段之資料精簡選取使用者感興趣的資料集合濾掉一些無關(guān)、偏差、重複的資料探勘階段之資料精簡去除不具代表性的中介資訊或法則,進而縮小探勘過程中所需花費的時間,減少產(chǎn)生重複、不重要的知識後置處理階段之資料精簡由探勘結(jié)果中選取其感興趣和相關(guān)的知識4資料精簡之優(yōu)點提高準(zhǔn)確性降低錯誤資料之影響挑選少量資料,大幅縮減資料探勘所需的時間助於高價值知識的取得提升知識可讀性降低儲存的成本5資料精簡所包含之觀點資料精簡:資料維度精簡、資料記錄精簡與資料數(shù)值精簡會員資料

3、集合會員編號平均月收入(千)教育程度年齡會員等級121高中30低224大學(xué)29高333國中28高420國中32低542高中31低638大學(xué)35高737高中36高資料維度資料記錄資料數(shù)值6資料維度精簡(DimensionReduction)資料維度利用年齡、教育程度、平均月收入和會員等級等資料維度來描述一個會員資料維度精簡在企業(yè)決策上的應(yīng)用企業(yè)在決策支援與線上分析處理(OLAP)上,通常根據(jù)決策制定目標(biāo)與應(yīng)用目地的不同,會由日常線上交易處理(OLTP)資料集合中,挑選、轉(zhuǎn)換、乃至新增跟決策相關(guān)的資料維度來描述資料集合,並進行

4、分析探勘7資料維度的評估(1)需要衡量標(biāo)準(zhǔn)來挑選較好的資料維度以會員資料表為例,“平均月收入”應(yīng)該比“教育程度”和“年齡”這兩個資料維度更適合做為“會員等級”評比的依據(jù)。(因為大部分收入低的會員,同常會員等級也會低)8資料維度的評估(2)測量方法一致性測量法(consistencymeasurement)關(guān)連性測量法(associationmeasurement)鑑別能力測量法(discriminationmeasurement)資訊量測量法(informationmeasurement)準(zhǔn)確性測量法(accuracyme

5、asurement)9資料維度的評估(3)闡述測量方法的整合範(fàn)例會員編號平均月收入(千)教育程度年齡會員等級11高中2低21大學(xué)1高32國中1高41國中2低53高中2低62大學(xué)2高72高中2高目標(biāo)資料維度其他待評估之資料維度10一致性測量法(1)概念在使用者給定之標(biāo)的資料維度下,一致性測量法的概念是利用最少的其他的資料維度,來描述資料表中每一筆記錄時,不會造成矛盾與衝突任兩筆資料記錄可以透過所選擇的資料維度來描述,但不會產(chǎn)生不一致(inconsistency)的情況範(fàn)例以”會員等級”是標(biāo)的資料維度,則單以“平均月收入”此資

6、料維度來描述原來的會員資料表,將使得資料記錄一與資料記錄二會產(chǎn)生不一致同樣“平均月收入”等級一但是會員一與會員二之會員等級卻不同11一致性測量法(2)“平均月收入”對“會員等級”所產(chǎn)生的不一致數(shù)量I(平均月收入,會員等級)=I(平均月收入(1),會員等級)+I(平均月收入(2),會員等級)+I(平均月收入(3),會員等級)=1+0+0=1“教育程度”對“會員等級”所產(chǎn)生的不一致數(shù)量I(教育程度,會員等級)=I(教育程度(大學(xué)),會員等級)+I(教育程度(高中),會員等級)+I(教育程度(國中),會員等級)=0+1+1=2“

7、年齡”對“會員等級”所產(chǎn)生的不一致數(shù)量I(年齡,會員等級)=I(年齡(1),會員等級)+I(年齡(2),會員等級)=0+2=2?“平均月收入”比其他資料維度重要12關(guān)連性測量法(1)概念當(dāng)兩個資料維度A、B關(guān)連度愈高,由A中的資料數(shù)值可以判斷B中的資料數(shù)值的可能性愈高範(fàn)例以”會員等級”是標(biāo)的資料維度,則“平均月收入”與其關(guān)連度可以概略計算為2/3*1*1=2/3平均月收入等級一時,有2/3的機會可以由此判斷為會員等級低平均月收入等級二時,有百分之百的機會判斷為會員等級高平均月收入等級三時,有百分之百的機會判斷為會員等級低1

8、3關(guān)連性測量法(2)“平均月收入”與“會員等級”的關(guān)連度R(平均月收入,會員等級)=R(平均月收入(1),會員等級)*R(平均月收入(2),會員等級)*R(平均月收入(3),會員等級)=2/3*1*1=2/3“教育程度”與“會員等級”的關(guān)連度R(教育程度,會員等級)=R(教育程度(大學(xué)),會員等級)*R

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。