數(shù)據(jù)挖掘與商務(wù)智能總結(jié)

數(shù)據(jù)挖掘與商務(wù)智能總結(jié)

ID:14813744

大?。?69.00 KB

頁數(shù):6頁

時間:2018-07-30

數(shù)據(jù)挖掘與商務(wù)智能總結(jié)_第1頁
數(shù)據(jù)挖掘與商務(wù)智能總結(jié)_第2頁
數(shù)據(jù)挖掘與商務(wù)智能總結(jié)_第3頁
數(shù)據(jù)挖掘與商務(wù)智能總結(jié)_第4頁
數(shù)據(jù)挖掘與商務(wù)智能總結(jié)_第5頁
資源描述:

《數(shù)據(jù)挖掘與商務(wù)智能總結(jié)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、第一章緒論什么是數(shù)據(jù)挖掘,什么是商業(yè)智能從大型數(shù)據(jù)庫中提取有趣的(非平凡的、蘊涵的、先前未知的且是潛在有用的)信息或模式。商業(yè)智能是要在必須的時間段內(nèi),把正確有用的信息傳遞給適當(dāng)?shù)臎Q策者,以便為有效決策提供信息支持。分類算法的評價標準召回率recall=系統(tǒng)檢索到的相關(guān)文件數(shù)/相關(guān)文件總數(shù)準確率precision(查準率)=系統(tǒng)檢索到的相關(guān)文件數(shù)/系統(tǒng)返回的文件總數(shù)第二章數(shù)據(jù)倉庫什么是數(shù)據(jù)倉庫是運用新信息科技所提供的大量數(shù)據(jù)存儲、分析能力,將以往無法深入整理分析的客戶數(shù)據(jù)建立成為一個強大的顧客關(guān)系管理系

2、統(tǒng),以協(xié)助企業(yè)制定精準的運營決策。數(shù)據(jù)倉庫的基本特征1面向主題2整合性3長期性4穩(wěn)定性第三章數(shù)據(jù)挖掘簡介數(shù)據(jù)挖掘的一般功能1分類2估計3預(yù)測4關(guān)聯(lián)分類5聚類數(shù)據(jù)挖掘的完整步驟1理解數(shù)據(jù)與數(shù)據(jù)所代表的含義2獲取相關(guān)知識與技術(shù)3整合與檢查數(shù)據(jù)4取出錯誤或不一致的數(shù)據(jù)5建模與假設(shè)6數(shù)據(jù)挖掘運行7測試與驗證所挖掘的數(shù)據(jù)8解釋與使用數(shù)據(jù)數(shù)據(jù)挖掘建模的標準CRISP-CM跨行業(yè)數(shù)據(jù)挖掘的標準化過程第四章數(shù)據(jù)挖掘中的主要方法基于SQLServer2005SSAS的十種數(shù)據(jù)挖掘算法是什么1.決策樹2.聚類3.Bayes

3、分類4.有序規(guī)則5.關(guān)聯(lián)規(guī)則6.神經(jīng)網(wǎng)絡(luò)7.線性回歸8.Logistic回歸9.時間序列10.文本挖掘第五章數(shù)據(jù)挖掘與相關(guān)領(lǐng)域的關(guān)系數(shù)據(jù)挖掘與機器學(xué)習(xí)、統(tǒng)計分析之間的區(qū)別與聯(lián)系(再看看書整理下)32頁處理大量實際數(shù)據(jù)更具優(yōu)勢,并且使用數(shù)據(jù)挖掘工具無需具備專業(yè)的統(tǒng)計學(xué)背景。數(shù)據(jù)分析的需求和趨勢已經(jīng)被許多大型數(shù)據(jù)庫所實現(xiàn),并且可以進行企業(yè)級別的數(shù)據(jù)挖掘應(yīng)用。相對于重視理論和方法的統(tǒng)計學(xué)而言,數(shù)據(jù)挖掘更強調(diào)應(yīng)用,畢竟數(shù)據(jù)挖掘目的是方便企業(yè)用戶的使用。第六章SQLServer2005中的商業(yè)智能商業(yè)智能(BI)

4、的核心技術(shù)是什么數(shù)據(jù)倉庫和數(shù)據(jù)挖掘第七章SQLServer2005中的數(shù)據(jù)挖掘MicrosoftSQLServerManagementStudio提供了兩個用于管理數(shù)據(jù)庫項目(如腳本、查詢、數(shù)據(jù)連接和文件)的容器是什么?1項目2解決方案第八章SQLServer2005的分析服務(wù)什么是UDM?統(tǒng)一維度模型第九章SQLServer2005的報表服務(wù)什么是報表服務(wù),其功能是一個基于服務(wù)器的完整平臺,可創(chuàng)建、管理和交付傳統(tǒng)報表和交互式報表。1制作報表2管理報表3提交報表第十章決策樹模型什么是決策樹?是數(shù)據(jù)挖掘的

5、一項主要分析工具。(決策樹能從一個或多個預(yù)測變量中,針對類別因變量的選項,預(yù)測出個例的趨勢變化關(guān)系等。也可以由結(jié)果來反推原因。)SQLServer2005決策樹算法步驟第十一章貝葉斯分類什么是簡單貝葉斯分類器是簡單又使用的分類方法。SQLServer2005貝葉斯分類算法步驟第十二章關(guān)聯(lián)規(guī)則什么是關(guān)聯(lián)規(guī)則可解決哪些問題?是分析發(fā)現(xiàn)數(shù)據(jù)庫中不同變量或個體間(例如商品間的關(guān)系及年齡與購買行為…)之間關(guān)系程度,并用這些規(guī)則找出顧客購買行為模式,如購買了臺式計算機外設(shè)產(chǎn)品(打印機、音箱、硬盤…)的相關(guān)影響。發(fā)現(xiàn)

6、這樣的規(guī)則可以應(yīng)用于商品貨架擺設(shè)、庫存安排以及根據(jù)購買行為模式對客戶進行分類。興趣度指標的意義當(dāng)興趣度指標大于1的時候,這條規(guī)則就是比較好的;當(dāng)興趣度小于1的時候,這條規(guī)則就是沒有很大意義的。興趣度越大,規(guī)則的實際意義就越好。SQLServer2005關(guān)聯(lián)規(guī)則算法步驟第十三章聚類分析什么是聚類分析聚類分析的思想與判斷分析類似,同樣是由樣本分組,尋找到多維數(shù)據(jù)點中的差異之處。不同的地方有兩點:(1)聚類分析的分類方式并不需要預(yù)先指定一個指針變量;(2)聚類分析屬于一種非參數(shù)分析方法,所以并沒有非常嚴謹?shù)臄?shù)

7、理依據(jù),也無需假設(shè)總體為正態(tài)分布。在聚類方法中定量地描述研究對象之間的相近程度的指標兩個1相似系數(shù)2距離(用的比較多)聚類分析中“類”的具有什么特征(判斷)–聚類所說的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來劃分–聚類的數(shù)目和結(jié)構(gòu)都沒有事先假定聚類分析方法的分類1基于層次的方法2基于劃分的方法k-means(K均值聚類)屬于哪種聚類劃分聚類的方法歐式距離的計算聚類的原則是最大化類內(nèi)的相似性,最小化類間的相似性(選擇)SQLServer2005聚類分析算法步驟第十四章時序聚類分析序列聚類與關(guān)聯(lián)規(guī)則挖

8、掘區(qū)別是什么??SequenceClustering:在找出先后發(fā)生事物的關(guān)系,重點在于分析數(shù)據(jù)間先后序列關(guān)系。?Association則是找出某一事件或資料中會同時出現(xiàn)的狀態(tài),例如項目A是某事件的一部份,則項目B也出現(xiàn)在該事件中的機率有a%。序列模式解決什么問題?時序聚類算法用于根據(jù)某一順序?qū)?shù)據(jù)分組。?例如,Web應(yīng)用程序的用戶經(jīng)常按照各種路徑瀏覽網(wǎng)站。此算法可以根據(jù)瀏覽站點的頁面順序?qū)τ脩暨M行分組,以幫助分析消費者并確定是否某個路徑比

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。