資源描述:
《貝葉斯分類ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、數(shù)據(jù)挖掘分類之貝葉斯分類目錄貝葉斯網(wǎng)絡2貝葉斯分類1總結4基于weka的貝葉斯仿真3致謝51.1分類的基本概念1.2貝葉斯分類概述1.貝葉斯分類1.1分類的基本概念背景近幾十年來,Internet互聯(lián)網(wǎng)的普及使得人們獲得和存儲數(shù)據(jù)的能力得到逐步的提高,數(shù)據(jù)規(guī)模不斷壯大。面對“數(shù)據(jù)豐富而知識匱乏”的挑戰(zhàn),數(shù)據(jù)挖掘技術應運而生。數(shù)據(jù)挖掘是一門多學科的交叉領域,涉及統(tǒng)計學,機器學習、神經(jīng)網(wǎng)絡、模式識別、知識庫系統(tǒng)、信息檢索、高性能計算和可視化等學科。而數(shù)據(jù)挖掘中的分類技術是一項非常重要的技術。Q1什么是分類超市中的物品分類生活中的垃圾分類Q1什么是分類生活信息的分類由此
2、可見,分類是跟我們的生活息息相關的東西,分類讓生活更加有條理,更加精彩.Q1什么是分類分類就是把一些新的數(shù)據(jù)項映射到給定類別的中的某一個類別,比如說當我們發(fā)表一篇文章的時候,就可以自動的把這篇文章劃分到某一個文章類別。分類也稱為有監(jiān)督學習(supervisedlearning),與之相對于的是無監(jiān)督學習(unsupervisedlearning),比如聚類。分類與聚類的最大區(qū)別在于,分類數(shù)據(jù)中的一部分的類別是已知的,而聚類數(shù)據(jù)的類別未知。分類在數(shù)據(jù)挖掘中的學術定義Q2分類問題名稱胎生會飛水中生活有腿類別Human是否否是哺乳動物python否否否否非哺乳動物sal
3、mon否否是否非哺乳動物whale是否是否哺乳動物frog否否有時是非哺乳動物komodo否否否是非哺乳動物bat是是否是哺乳動物pigeon否是否是非哺乳動物cat是否否是哺乳動物leopard_shark是否是否非哺乳動物turtle否否有時是非哺乳動物penguin否否有時是非哺乳動物porcupine是否否是哺乳動物eel否否是否非哺乳動物salamander否否有時是非哺乳動物gila_monster否否否是非哺乳動物platypus否否否是哺乳動物owl否是否是非哺乳動物dolphin是否是否哺乳動物eagle否是否是非哺乳動物胎生會飛水中生活有腿類別
4、是否是否?Q2分類問題稅號去年退稅婚姻狀況可征稅收入逃稅1是單身125k否2否婚姻中100k否3否單身70k否4是婚姻中120k否5否離婚95k是6否婚姻中60k否7是離婚220k否8否單身85k是9否婚姻中75k否10否單身90k是Q2分類的流程動物種類體型翅膀數(shù)量腳的只數(shù)是否產(chǎn)蛋是否有毛類別狗中04否是哺乳動物豬大04否是哺乳動物牛大04否是哺乳動物麻雀小22是是鳥類天鵝中22是是鳥類大雁中22是是鳥類動物A大02是無?動物B中22否是?根據(jù)現(xiàn)有的知識,我們得到了一些關于哺乳動物和鳥類的信息,我們能否對新發(fā)現(xiàn)的物種,比如動物A,動物B進行分類?動物種類體型翅膀
5、數(shù)量腳的只數(shù)是否產(chǎn)蛋是否有毛類別狗中04否是哺乳動物豬大04否是哺乳動物牛大04否是哺乳動物麻雀小22是是鳥類天鵝中22是是鳥類大雁中22是是鳥類步驟一:將樣本轉化為等維的數(shù)據(jù)特征(特征提取)。所有樣本必須具有相同數(shù)量的特征兼顧特征的全面性和獨立性Q2分類的流程動物種類體型翅膀數(shù)量腳的只數(shù)是否產(chǎn)蛋是否有毛類別狗中04否是哺乳動物豬大04否是哺乳動物牛大04否是哺乳動物麻雀小22是是鳥類天鵝中22是是鳥類大雁中22是是鳥類步驟二:選擇與類別相關的特征(特征選擇)。比如,綠色代表與類別非常相關,黑色代表部分相關,淺藍色代表完全無關Q2分類的流程步驟三:建立分類模型或分
6、類器(分類)。分類器通常可以看作一個函數(shù),它把特征映射到類的空間上Q2分類的流程Q3分類的方法對數(shù)據(jù)挖掘中心的可信技術分類算法的內容及其研究現(xiàn)狀進行綜述。認為分類算法大體可以分為傳統(tǒng)分類算法和基于軟件計算的分類法兩類,主要包括相似函數(shù),關聯(lián)規(guī)則分類算法,K近鄰分類算法,決策樹分類算法,貝葉斯分類算法和基于模糊邏輯,遺傳算法,粗糙集和神經(jīng)網(wǎng)絡的分類算法。分類的算法有很多種,他們都有各自的優(yōu)缺點和應用范圍,本次我就貝葉斯分類算法展開我的演講。1.2貝葉斯分類概述背景貝葉斯分類基于貝葉斯定理,貝葉斯定理是由18世紀概率論和決策論的早起研究者ThomasBayes發(fā)明的,
7、故用其名字命名為貝葉斯定理。分類算法的比較研究發(fā)現(xiàn),一種稱為樸素貝葉斯分類法的簡單貝葉斯分類法可以與決策樹和經(jīng)過挑選的神經(jīng)網(wǎng)絡分類器相媲美。用于大型數(shù)據(jù)庫,貝葉斯分類法也已表現(xiàn)出高準確率和高速度。目前研究較多的貝葉斯分類器主要有四種,分別是:NaiveBayes、TAN、BAN和GBN。ThomasBayes貝葉斯定理貝葉斯定理(Bayes'theorem)是概率論中的一個結果,它跟隨機變量的條件概率以及邊緣概率分布有關。在有些關于概率的解說中,貝葉斯定理能夠告知我們如何利用新證據(jù)修改已有的看法。通常,事件A在事件B(發(fā)生)的條件下的概率,與事件B在事件A的條件下
8、的概率是不