資源描述:
《貝葉斯統(tǒng)計方法報告》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、貝葉斯方法貝葉斯分類器是一種比較有潛力的數(shù)據(jù)挖掘工具,它本質(zhì)上是一種分類手段,但是它的優(yōu)勢不僅僅在于高分類準(zhǔn)確率,更重要的是,它會通過訓(xùn)練集學(xué)習(xí)一個因果關(guān)系圖(有向無環(huán)圖)。如在醫(yī)學(xué)領(lǐng)域,貝葉斯分類器可以輔助醫(yī)生判斷病情,并給出各癥狀影響關(guān)系,這樣醫(yī)生就可以有重點的分析病情給出更全面的診斷。進(jìn)一步來說,在面對未知問題的情況下,可以從該因果關(guān)系圖入手分析,而貝葉斯分類器此時充當(dāng)?shù)氖且环N輔助分析問題領(lǐng)域的工具。如果我們能夠提出一種準(zhǔn)確率很高的分類模型,那么無論是輔助診療還是輔助分析的作用都會非常大甚至起主導(dǎo)作用,可見貝葉斯分類器的研究是非常有意義的。
2、與五花八門的貝葉斯分類器構(gòu)造方法相比,其工作原理就相對簡單很多。我們甚至可以把它歸結(jié)為一個如下所示的公式:選取其中后驗概率最大的c,即分類結(jié)果,可用如下公式表示貝葉斯統(tǒng)計的應(yīng)用范圍很廣,如計算機(jī)科學(xué)中的“統(tǒng)計模式識別”、勘探專家所采用的概率推理、計量經(jīng)濟(jì)中的貝葉斯推斷、經(jīng)濟(jì)理論中的貝葉斯模型等。上述公式本質(zhì)上是由兩部分構(gòu)成的:貝葉斯分類模型和貝葉斯公式。下面介紹貝葉斯分類器工作流程:1.學(xué)習(xí)訓(xùn)練集,存儲計算條件概率所需的屬性組合個數(shù)。2.使用1中存儲的數(shù)據(jù),計算構(gòu)造模型所需的互信息和條件互信息。3.使用2種計算的互信息和條件互信息,按照定義的構(gòu)造
3、規(guī)則,逐步構(gòu)建出貝葉斯分類模型。4.傳入測試實例5.根據(jù)貝葉斯分類模型的結(jié)構(gòu)和貝葉斯公式計算后驗概率分布。6.選取其中后驗概率最大的類c,即預(yù)測結(jié)果。一、第一部分中給出了7個定義。定義1給定事件組,若其中一個事件發(fā)生,而其他事件不發(fā)生,則稱這些事件互不相容。定義2若兩個事件不能同時發(fā)生,且每次試驗必有一個發(fā)生,則稱這些事件相互對立。定義3若定某事件未發(fā)生,而其對立事件發(fā)生,則稱該事件失敗定義4若某事件發(fā)生或失敗,則稱該事件確定。定義5任何事件的概率等于其發(fā)生的期望價值與其發(fā)生所得到的價值之比。定義6機(jī)會與概率是同義詞。定義7給定事件組,若當(dāng)其中任
4、何一個事件發(fā)生時,其余事件的概率不變,則稱該事件組互相獨(dú)立。貝葉斯所給出的互不相容、相互獨(dú)立、對立事件的定義與現(xiàn)在的定義差別無幾,他首次明確了機(jī)會與概率的等價性。同時貝葉斯也給出了一系列命題。二、貝葉斯統(tǒng)計的基本思想拉普拉斯(Laplace,Pierre-Simon(1749~1827))發(fā)現(xiàn)了貝葉斯統(tǒng)計的核心——貝葉斯公式(又稱為逆概公式),進(jìn)行了更清晰的闡述,并用它來解決天體力學(xué)、醫(yī)學(xué)統(tǒng)計以及法學(xué)問題。在介紹貝葉斯公式前,先簡單介紹一下三種信息:總體信息、樣本信息和先驗信息。1.1總體信息:是人們對總體的了解,所帶來的有關(guān)信息,總體信息包括總
5、體分布或者總體分布族的有關(guān)信息。例如:“總體屬于正態(tài)分布”、“它的密度函數(shù)是鐘型曲線”等等。1.2樣本信息:是通過樣本而給我們提供的有關(guān)信息。這類“信息”是最具價值和與實際聯(lián)系最緊密的信息。人們總是希望這類信息越多越好。樣本信息越多一般對總體推斷越準(zhǔn)確?;谝陨蟽煞N信息所作出的統(tǒng)計推斷被稱為經(jīng)典統(tǒng)計。其特征主要是:把樣本數(shù)據(jù)看成是來自具有一定概率分布的總體,所研究的對象是總體,而不是立足與數(shù)據(jù)本身。1.3先驗信息,即在抽樣之前有關(guān)統(tǒng)計問題的一些信息,一般說來,先驗信息主要來源于經(jīng)驗和歷史資料。先驗信息在日常生活中和工作中也經(jīng)??梢?,不少人在自覺或
6、不自覺的使用它,但經(jīng)典統(tǒng)計忽視了,對于統(tǒng)計推斷是一個損失。基于上述三種信息進(jìn)行的推斷被稱為貝葉斯統(tǒng)計學(xué)。它與經(jīng)典統(tǒng)計學(xué)的主要區(qū)別在于是否利用先驗信息。在使用樣本信息上也是有差異的。2.貝葉斯統(tǒng)計的基本思想國際數(shù)理統(tǒng)計主要有兩大學(xué)派:貝葉斯學(xué)派和經(jīng)典學(xué)派。他們之間既有共同點,又有不同點。貝葉斯統(tǒng)計與經(jīng)典統(tǒng)計學(xué)的最主要差別在于是否利用先驗信息,經(jīng)典統(tǒng)計學(xué)是基于總體信息(即總體分布或總體所屬分布族的信息)和樣本信息(即從總體抽取的樣本的信息)進(jìn)行的統(tǒng)計推斷,而貝葉斯統(tǒng)計是基于總體信息、樣本信息和先驗信息(即在抽樣之前有關(guān)統(tǒng)計問題的一些信息,主要來源于經(jīng)
7、驗或歷史資料)進(jìn)行的統(tǒng)計推斷。貝葉斯統(tǒng)計是貝葉斯理論和方法的應(yīng)用之一。其基本思想是:假定對所研究的對象在抽樣前己有一定的認(rèn)識,常用先驗(Prior)分布來描述這種認(rèn)識,然后基于抽取的樣本再對先驗認(rèn)識作修正,得到后驗分布,而各種統(tǒng)計推斷都基于后驗分布進(jìn)行。經(jīng)典統(tǒng)計學(xué)的出發(fā)點是根據(jù)樣本,在一定的統(tǒng)計模型下做出統(tǒng)計推斷。在取得樣本觀測值X之前,往往對參數(shù)統(tǒng)計模型中的參數(shù)。有某些先驗知識,關(guān)于q的先驗知識的數(shù)學(xué)描述就是先驗分布。貝葉斯統(tǒng)計的主要特點是使用先驗分布,經(jīng)典統(tǒng)計學(xué)是基于總體信息(即總體分布或總體所屬分布族的信息)和樣本信息(即從總體抽取的樣本的
8、信息)進(jìn)行的統(tǒng)計推斷,而貝葉斯統(tǒng)計是基于總體信息、樣本信息和先驗信息(即在抽樣之前有關(guān)統(tǒng)計問題的一些信息,主要來源于經(jīng)驗或歷史資料)進(jìn)行