資源描述:
《機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的關(guān)系.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的關(guān)系前言 在大多數(shù)非計算機(jī)專業(yè)人士以及部分計算機(jī)專業(yè)背景人士眼中,機(jī)器學(xué)習(xí)(DataMining)以及數(shù)據(jù)挖掘(MachineLearning)是兩個高深的領(lǐng)域。在筆者看來,這是一種過高”瞻仰“的習(xí)慣性錯誤理解(在這里我加了好多定語)。事實上,這兩個領(lǐng)域與計算機(jī)其他領(lǐng)域一樣都是在融匯理論和實踐的過程中不斷熟練和深入,不同之處僅在于滲透了更多的數(shù)學(xué)知識(主要是統(tǒng)計學(xué)),在后面的文章中我會努力將這些數(shù)學(xué)知識以一種更容易理解的方式講解給大家。本文從基本概念出發(fā)淺析他們的關(guān)系和異同,不講具體算法和數(shù)學(xué)公式。希望對大家能有所幫助。幾個相關(guān)示例 首先,給
2、大家列舉一些生活中與數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)相關(guān)的應(yīng)用示例以幫助大家更好的理解?! ∈纠?(關(guān)聯(lián)問題): 經(jīng)常去超市的同學(xué)可能會發(fā)現(xiàn),我們事先在購物清單上列舉好的某些商品可能會被超市阿姨擺放在相鄰的區(qū)域。例如,機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的關(guān)系前言 在大多數(shù)非計算機(jī)專業(yè)人士以及部分計算機(jī)專業(yè)背景人士眼中,機(jī)器學(xué)習(xí)(DataMining)以及數(shù)據(jù)挖掘(MachineLearning)是兩個高深的領(lǐng)域。在筆者看來,這是一種過高”瞻仰“的習(xí)慣性錯誤理解(在這里我加了好多定語)。事實上,這兩個領(lǐng)域與計算機(jī)其他領(lǐng)域一樣都是在融匯理論和實踐的過程中不斷熟練和深入,不同之處僅在于滲透了更多的
3、數(shù)學(xué)知識(主要是統(tǒng)計學(xué)),在后面的文章中我會努力將這些數(shù)學(xué)知識以一種更容易理解的方式講解給大家。本文從基本概念出發(fā)淺析他們的關(guān)系和異同,不講具體算法和數(shù)學(xué)公式。希望對大家能有所幫助。幾個相關(guān)示例 首先,給大家列舉一些生活中與數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)相關(guān)的應(yīng)用示例以幫助大家更好的理解?! ∈纠?(關(guān)聯(lián)問題): 經(jīng)常去超市的同學(xué)可能會發(fā)現(xiàn),我們事先在購物清單上列舉好的某些商品可能會被超市阿姨擺放在相鄰的區(qū)域。例如,面包柜臺旁邊會擺上黃油、面條柜臺附近一定會有老干媽等等。這樣的物品擺放會讓我們的購物過程更加快捷、輕松?! ∧敲慈绾沃滥男┪锲吩摂[放在一塊?又或者用戶在購買某
4、一個商品的情況下購買另一個商品的概率有多大?這就要利用關(guān)聯(lián)數(shù)據(jù)挖掘的相關(guān)算法來解決?! ∈纠?(分類問題): 在嘈雜的廣場上,身邊人來人往。仔細(xì)觀察他們的外貌、衣著、言行等我們會不自覺地斷論這個人是新疆人、東北人或者是上海人。又例如,在剛剛結(jié)束的2015NBA總決賽中,各類權(quán)威機(jī)構(gòu)會大量分析騎士隊與勇士隊的歷史數(shù)據(jù)從而得出騎士隊或者勇士隊是否會奪冠的結(jié)論?! ≡谏鲜龅谝粋€例子中,由于地域眾多,在對人進(jìn)行地域分類的時候這是一個典型的多分類問題。而在第二個例子中各類機(jī)構(gòu)預(yù)測勇士隊是否會戰(zhàn)勝騎士隊奪冠,這是一個二分類問題,其結(jié)果只有兩種。二分類問題在業(yè)界的出鏡率異常高,
5、例如在推薦系統(tǒng)中預(yù)測一個人是否會買某個商品、其他諸如地震預(yù)測、火災(zāi)預(yù)測等等?! ∈纠?(聚類問題): ”物以類聚,人以群分“,生活中到處都有聚類問題的影子。假設(shè)銀行擁有若干客戶的歷史消費記錄,現(xiàn)在由于業(yè)務(wù)擴(kuò)張需要新增幾款面對不同人群的理財產(chǎn)品,那么如何才能準(zhǔn)確的將不同的理財產(chǎn)品通過電話留言的方式推薦給不同的人群?這便是一個聚類問題,銀行一般會將所有的用戶進(jìn)行聚類,有相似特征的用戶屬于同一個類別,最后將不同理財產(chǎn)品推薦給相應(yīng)類別的客戶?! ∈纠?(回歸問題): 回歸問題或者稱作預(yù)測問題同樣也是一個生活中相當(dāng)接地氣的應(yīng)用。大家知道,證券公司會利用歷史數(shù)據(jù)對未來一段時
6、間或者某一天的股票價格走勢進(jìn)行預(yù)測。同樣,房地產(chǎn)商也會根據(jù)地域情況對不同面積樓層的房產(chǎn)進(jìn)行定價預(yù)測?! ∩鲜鰞蓚€示例都是回歸問題的典型代表,這類問題往往根據(jù)一定的歷史數(shù)據(jù)對某一個指定條件下的目標(biāo)預(yù)測一個實數(shù)值?! ∠嘈沤?jīng)過上面通俗易懂的示例,大家應(yīng)該初步了解數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)會應(yīng)用到哪些問題之上(這里列舉的四類問題是很常見的,當(dāng)然還有例如異常檢測等應(yīng)用),這就解決了面對一個新問題三要素中的Why。下面解釋什么是機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘(即What)以及他們的關(guān)系和異同點。數(shù)據(jù)挖掘 數(shù)據(jù)挖掘(Datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:K
7、nowledge-DiscoveryinDatabases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)?! 纳厦娴亩x可以看出數(shù)據(jù)挖掘相對于機(jī)器學(xué)習(xí)而言是一個更加偏向應(yīng)用的領(lǐng)域。實際上,數(shù)據(jù)挖掘是一門涉及面很廣的交叉學(xué)科,在處理各種問題時,只要我們清楚了業(yè)務(wù)邏輯那么就可以將問題轉(zhuǎn)換為挖掘問題?! ?shù)據(jù)挖掘的處理過程一般包括數(shù)據(jù)預(yù)處理(ETL、數(shù)據(jù)清洗、數(shù)據(jù)集成等),數(shù)據(jù)倉庫