數(shù)據(jù)挖掘概念與技術————

數(shù)據(jù)挖掘概念與技術————

ID:26267099

大?。?.64 MB

頁數(shù):103頁

時間:2018-11-25

數(shù)據(jù)挖掘概念與技術————_第1頁
數(shù)據(jù)挖掘概念與技術————_第2頁
數(shù)據(jù)挖掘概念與技術————_第3頁
數(shù)據(jù)挖掘概念與技術————_第4頁
數(shù)據(jù)挖掘概念與技術————_第5頁
資源描述:

《數(shù)據(jù)挖掘概念與技術————》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。

1、數(shù)據(jù)挖掘滕少華廣東工業(yè)大學協(xié)同計算與知識工程第二章數(shù)據(jù)及數(shù)據(jù)預處理滕少華Tel:13380039556E-mail:shteng@gdut.edu.cn內(nèi)容提要數(shù)據(jù)及數(shù)據(jù)類型為什么要預處理數(shù)據(jù)?描述數(shù)據(jù)的匯總(為數(shù)據(jù)預處理提供分析的基礎)數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約相似度計算09八月20213協(xié)同計算與知識工程數(shù)據(jù)及數(shù)據(jù)類型相關概念數(shù)據(jù)狹義:數(shù)字。廣義:數(shù)據(jù)對象及其屬性的集合,其表現(xiàn)形式可以是數(shù)字、符號、文字、圖像抑或是計算機代碼等等。屬性(也稱為特征、維或字段),是指一個對象的某方面性質(zhì)或特性

2、。一個對象通過若干屬性來刻畫。數(shù)據(jù)集數(shù)據(jù)對象的集合09八月20214協(xié)同計算與知識工程5屬性包含電信客戶信息的樣本數(shù)據(jù)集案例客戶編號客戶類別行業(yè)大類通話級別通話總費用…N22011002518大客戶采礦業(yè)和一般制造業(yè)市話16352…C14004839358商業(yè)客戶批發(fā)和零售業(yè)市話+國內(nèi)長途(含國內(nèi)IP)27891…N22004895555商業(yè)客戶批發(fā)和零售業(yè)市話+國際長途(含國際IP)63124…3221026196大客戶科學教育和文化衛(wèi)生市話+國際長途(含國際IP)53057…D14004737

3、444大客戶房地產(chǎn)和建筑業(yè)市話+國際長途(含國際IP)80827…︰︰︰︰︰…對象09八月2021協(xié)同計算與知識工程屬性類型描述例子分類的(定性的)標稱其屬性值只提供足夠的信息以區(qū)分對象。這種屬性值沒有實際意義。如三個對象可以用A,B,C區(qū)分,也可以用甲,乙.丙區(qū)分顏色、性別、產(chǎn)品編號。序數(shù)其屬性值提供足夠的信息以區(qū)分對象的序。成績等級(優(yōu)、良、中、及格、不及格)、年級(一年級、二年級、三年級、四年級)數(shù)值的(定量的)區(qū)間其屬性值之間的差是有意義的。日歷日期、攝氏溫度比率其屬性值之間的差和比率都是

4、有意義的。長度、時間和速度不同的屬性類型09八月20216協(xié)同計算與知識工程7數(shù)據(jù)集的特性維度指數(shù)據(jù)集中的對象具有的屬性個數(shù)總和。因為在高維度數(shù)據(jù)集中經(jīng)常會遇到維度災難,因此數(shù)據(jù)預處理的一個重要技術是維歸約稀疏性指在某些數(shù)據(jù)集中,有意義的數(shù)據(jù)非常少,對象在大部分屬性上的取值為0;非零項不到1%。文本數(shù)據(jù)集分辨率(粒度)不同分辨率或粒度下數(shù)據(jù)的性質(zhì)不同09八月2021協(xié)同計算與知識工程8數(shù)據(jù)集的類型記錄數(shù)據(jù)事務數(shù)據(jù)或購物籃數(shù)據(jù)數(shù)據(jù)矩陣文本數(shù)據(jù)基于圖形的數(shù)據(jù)萬維網(wǎng)化合物結(jié)構(gòu)有序數(shù)據(jù)時序數(shù)據(jù)(時態(tài)數(shù)據(jù))

5、序列數(shù)據(jù)時間序列數(shù)據(jù)空間數(shù)據(jù)流數(shù)據(jù)09八月2021協(xié)同計算與知識工程9記錄數(shù)據(jù)事務數(shù)據(jù)(TransactionData)是一種特殊類型的記錄數(shù)據(jù),其中每個記錄涉及一個項的集合。事務ID商品的ID列表T100Bread,Milk,BeerT200Soda,cup,Diaper……典型的事務數(shù)據(jù)如超市零售數(shù)據(jù),顧客一次購物所購買的商品的集合就構(gòu)成一個事務,而購買的商品就是項。這種類型的數(shù)據(jù)也稱作購物籃數(shù)據(jù),因為記錄中的每一項都是一位顧客“購物籃”中購買的商品。09八月2021協(xié)同計算與知識工程10數(shù)據(jù)

6、矩陣如果一個數(shù)據(jù)集簇中的所有數(shù)據(jù)對象都具有相同的數(shù)值屬性集,則數(shù)據(jù)對象可以看作多維空間中的點,其中每個維代表描述對象的一個不同屬性。數(shù)據(jù)集可以用一個m×n的矩陣表示,其中m行,一個對象一行;n列,一個屬性一列。09八月2021協(xié)同計算與知識工程11文本數(shù)據(jù)文檔用詞向量表示每個詞是向量的一個分量(屬性)每個分量的值是對應詞在文檔中出現(xiàn)的次數(shù)09八月2021協(xié)同計算與知識工程12圖形數(shù)據(jù)網(wǎng)頁鏈接化合物結(jié)構(gòu)09八月2021協(xié)同計算與知識工程有序數(shù)據(jù)時序數(shù)據(jù)(時態(tài)數(shù)據(jù)如工資,職稱等)序列數(shù)據(jù)(序列數(shù)據(jù)庫S

7、是元組的集合,其中SID是序列ID,s是一個序列)時間序列數(shù)據(jù)(由不同時間重復測量得到的值。)......事物時間顧客ID購買商品t1110,20t2240,60,90t3140t4310,20顧客ID購買商品1<{10,20},{40}>2<{40,60,60}>3<{10,20}>09八月202113協(xié)同計算與知識工程內(nèi)容提要數(shù)據(jù)及數(shù)據(jù)類型為什么要預處理數(shù)據(jù)?描述數(shù)據(jù)的匯總(為數(shù)據(jù)預處理提供分析的基礎)數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約相似度計算09八月202114協(xié)同計算與知識工程

8、為什么進行數(shù)據(jù)預處理?現(xiàn)實中的數(shù)據(jù)都是雜亂無章的不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯誤或孤立點值不一致的:在代碼或名稱上存在差異例1:過去的等級:“1,2,3”,現(xiàn)在的等級:“A,B,C”例2::Age=“48”Birthday=“03/07/196309八月202115協(xié)同計算與知識工程不完整數(shù)據(jù)的成因數(shù)據(jù)收集的時候就缺乏合適的值數(shù)據(jù)收集時和數(shù)據(jù)分析時的不同考慮因素人為/硬件/軟件問題噪聲數(shù)據(jù)(不正確的值)的成因數(shù)據(jù)收集工具的問題數(shù)據(jù)輸入時的人為

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。