資源描述:
《數(shù)據(jù)挖掘常用的十大算法.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、數(shù)據(jù)挖掘常用的十大算法數(shù)據(jù)挖掘簡介 數(shù)據(jù)挖掘(英語:Datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)?! ?shù)據(jù)挖掘經(jīng)典算法1.C4.5:是機器學(xué)習(xí)算法中的一種分類決策樹算法,其
2、核心算法是ID3算法?! 〗馕觥 4.5算法是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法。C4.5算法繼承了ID3算法的長處。并在下面幾方面對ID3算法進(jìn)行了改進(jìn): 1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足?! ?)在樹構(gòu)造過程中進(jìn)行剪枝; 3)可以完畢對連續(xù)屬性的離散化處理; 4)可以對不完整數(shù)據(jù)進(jìn)行處理?! 4.5算法有例如以下長處:產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點是:在構(gòu)造樹的過程中,須要對數(shù)據(jù)集進(jìn)行多次的順序掃描
3、和排序,因而導(dǎo)致算法的低效?! ?、機器學(xué)習(xí)中。決策樹是一個預(yù)測模型。他代表的是對象屬性與對象值之間的一種映射關(guān)系。樹中每一個節(jié)點表示某個對象,而每一個分叉路徑則代表的某個可能的屬性值,而每一個葉結(jié)點則 相應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出。若欲有復(fù)數(shù)輸出,能夠建立獨立的決策樹以處理不同輸出?! ?、從數(shù)據(jù)產(chǎn)生決策樹的機器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí),通俗說就是決策樹?! ?、決策樹學(xué)習(xí)也是數(shù)據(jù)挖掘中一個普通的方法。在這里,每一個決策樹都表述了一種樹型結(jié)構(gòu),他由他的
4、分支來對該類型的對象依靠屬性進(jìn)行分類。每一個決策樹能夠依靠對源數(shù)據(jù)庫的切割 進(jìn)行數(shù)據(jù)測試?! ∵@個過程能夠遞歸式的對樹進(jìn)行修剪。 當(dāng)不能再進(jìn)行切割或一個單獨的類能夠被應(yīng)用于某一分支時。遞歸過程就完畢了?! ×硗?。隨機森林分類器將很多決策樹結(jié)合起來 以提升分類的正確率。2.K-means算法:是一種聚類算法?! ⌒g(shù)語“k-means”最早是由JamesMacQueen在1967年提出的。這一觀點能夠追溯到1957年HugoSteinhaus所提出的想法。1957年。斯圖亞特·勞埃德最先提出這
5、一標(biāo)準(zhǔn)算法,當(dāng)初是作為一門應(yīng)用于脈碼調(diào)制的技術(shù),直到1982年,這一算法才在貝爾實驗室被正式提出。1965年。E.W.Forgy發(fā)表了一個本質(zhì)上是同樣的方法。1975年和1979年。HarTIgan和Wong分別提出了一個更高效的版本號?! ∷惴鑼憯⑹觥 ≥斎耄捍氐臄?shù)目k;包括n個對象的數(shù)據(jù)集D。 輸出:k個簇的集合?! 》椒ǎ骸 腄中隨意選擇k個對象作為初始簇中心; repeat; 依據(jù)簇中對象的均值。將每一個對象指派到最相似的簇; 更新簇均值。即計算每一個簇中對象的均值; 計算
6、準(zhǔn)則函數(shù); unTIl準(zhǔn)則函數(shù)不再發(fā)生變化。 3.SVM:一種監(jiān)督式學(xué)習(xí)的方法 廣泛運用于統(tǒng)計分類以及回歸分析中支持向量機,英文為SupportVectorMachine,簡稱SV機(論文中一般簡稱SVM)。它是一 種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計分類以及回歸分析中?! ≈С窒蛄繖C屬于一般化線性分類器。他們也可以覺得是提克洛夫規(guī)范化(TIkhonovRegularizaTIon)方法的一個特例。這族分類器的特點是他們可以同一時候最小化經(jīng)驗誤差與最大化 幾何邊緣區(qū)。因此支持向量
7、機也被稱為最大邊緣區(qū)分類器。在統(tǒng)計計算中,最大期望(EM)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然預(yù)計的算法。當(dāng)中概率模型依賴于無 法觀測的隱藏變量(LatentVariabl)?! ∽畲笃谕?jīng)經(jīng)常使用在機器學(xué)習(xí)和計算機視覺的數(shù)據(jù)集聚(DataClustering)領(lǐng)域?! ∽畲笃谕惴ń?jīng)過兩個步驟交替進(jìn)行計算: 第一步是計算期望(E),也就是將隱藏變量象可以觀測到的一樣包括在內(nèi)從而計算最大似然的期望值; 另外一步是最大化(M),也就是最大化在E步上找到的最大似然的
8、期望值從而計算參數(shù)的最大似然預(yù)計。 M步上找到的參數(shù)然后用于另外一個E步計算,這個過程不斷交替進(jìn)行?! apnik等人在多年研究統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上對線性分類器提出了還有一種設(shè)計最佳準(zhǔn)則。其原理也從線性可分說起,然后擴展到線性不可分的情況?! ∩踔翑U展到使用非線性函數(shù)中去,這 種分類器被稱為支持向量機(SupportVectorMachine,簡稱SVM)。支持向量機的提出有非常深的理論背景。支持向量機方法是在近年來提出的一種新方法?! VM的主要思想能夠概括為兩點: ?。?)它是針對線性