資源描述:
《貝葉斯推理課件不錯(cuò).ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、Chp11:貝葉斯推斷內(nèi)容:貝葉斯觀點(diǎn)和貝葉斯方法貝葉斯推斷vs.頻率推斷1貝葉斯觀點(diǎn)和貝葉斯方法從頻率到信念2頻率學(xué)派的觀點(diǎn)到目前為止我們講述的都是頻率(經(jīng)典的)統(tǒng)計(jì)學(xué)概率指的是相對(duì)頻率,是真實(shí)世界的客觀屬性。參數(shù)是固定的未知常數(shù)。由于參數(shù)不會(huì)波動(dòng),因此不能對(duì)其進(jìn)行概率描述。統(tǒng)計(jì)過(guò)程應(yīng)該具有定義良好的頻率穩(wěn)定性。如:一個(gè)95%的置信區(qū)間應(yīng)覆蓋參數(shù)真實(shí)值至少95%的頻率。統(tǒng)計(jì)學(xué)更多關(guān)注頻率推斷3貝葉斯學(xué)派的觀點(diǎn)貝葉斯推斷采取了另外一個(gè)不同的立場(chǎng):概率描述的是主觀信念的程度,而不是頻率。這樣除了對(duì)從隨機(jī)變化產(chǎn)生的數(shù)據(jù)進(jìn)行概率描述外,我們還可以對(duì)其他事物進(jìn)行概率描述。可以對(duì)各個(gè)參數(shù)進(jìn)行概率
2、描述,即使它們是固定的常數(shù)。為參數(shù)生成一個(gè)概率分布來(lái)對(duì)它們進(jìn)行推導(dǎo),點(diǎn)估計(jì)和區(qū)間估計(jì)可以從這些分布得到機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘更偏愛(ài)貝葉斯推斷4貝葉斯方法貝葉斯推斷的基本步驟如下:選擇一個(gè)概率密度函數(shù),用來(lái)表示在取得數(shù)據(jù)之前我們對(duì)某個(gè)參數(shù)的信念。我們稱之為先驗(yàn)分布。選擇一個(gè)模型(在參數(shù)推斷一章記為)來(lái)反映在給定參數(shù)情況下我們對(duì)x的信念。當(dāng)?shù)玫綌?shù)據(jù)X1,X2,…Xn后,我們更新我們的信念并且計(jì)算后驗(yàn)分布。從后驗(yàn)分布中得到點(diǎn)估計(jì)和區(qū)間估計(jì)。5回憶貝葉斯規(guī)則亦稱貝葉斯定理?xiàng)l件概率利用貝葉斯規(guī)則將數(shù)據(jù)和參數(shù)的分布聯(lián)合起來(lái)6似然函數(shù)假設(shè)我們有n個(gè)IID觀測(cè),記為,產(chǎn)生的數(shù)據(jù)為,記為,我們用如下公式替代
3、現(xiàn)在似然函數(shù)真正解釋為給定參數(shù)下數(shù)據(jù)的概率7后驗(yàn)概率因此后驗(yàn)概率為其中被稱為歸一化常數(shù)(normalizingconstant)。該常數(shù)經(jīng)常被忽略,因?yàn)槲覀冴P(guān)心的主要是參數(shù)的不同值之間的比較。所以也就是說(shuō),后驗(yàn)和似然函數(shù)與先驗(yàn)的乘積成正比8貝葉斯點(diǎn)估計(jì)后驗(yàn)的均值是一個(gè)常用的點(diǎn)估計(jì)L2損失下的貝葉斯規(guī)則極大后驗(yàn)估計(jì)(maximumaposteriori,MAP)是使后驗(yàn)最大的的值:是另一個(gè)常用的點(diǎn)估計(jì)0-1損失下的貝葉斯規(guī)則9貝葉斯置信區(qū)間估計(jì)為了得到貝葉斯區(qū)間估計(jì),我們需找到a和b,使得令因此C稱為后驗(yàn)區(qū)間。注意:在多次試驗(yàn)中,并不保證θ在(1?α)100%的次數(shù)會(huì)落在后驗(yàn)區(qū)間內(nèi)。事實(shí)
4、上,在復(fù)雜的高維模型中,當(dāng)樣本數(shù)很少時(shí),覆蓋概率可能接近于0。注意:是隨機(jī)的10例:BernoulliI令,假設(shè)先驗(yàn)為均勻分布,根據(jù)貝葉斯公式,后驗(yàn)為其中為成功的次數(shù)。11例:BernoulliI為了得到后驗(yàn)的均值,我們必須計(jì)算在這個(gè)例子中可以解析計(jì)算。后驗(yàn)恰好為Beta分布其中參數(shù),,均值為12例:BernoulliIp的極大似然估計(jì)為,為無(wú)偏估計(jì)。貝葉斯估計(jì)還可以寫(xiě)成其中為先驗(yàn)的均值,13例:BernoulliII現(xiàn)在假設(shè)先驗(yàn)不是均勻分布,而是則后驗(yàn)為Beta分布,參數(shù)為和,即后驗(yàn)的均值為其中為先驗(yàn)的均值。先驗(yàn)和后驗(yàn)為相同的分布族:共軛如例子中的Beta分布14例:正態(tài)分布令,為簡(jiǎn)
5、單起見(jiàn),假設(shè)已知,并假設(shè)先驗(yàn)為對(duì)θ而言為常數(shù)對(duì)θ而言為常數(shù)15例:正態(tài)分布將二者相乘,去掉一些常數(shù)項(xiàng),最后得到一個(gè)正態(tài)分布形式的核最后,θ的后驗(yàn)為其中為MLE的標(biāo)準(zhǔn)誤差。16例:正態(tài)分布當(dāng)時(shí),,當(dāng)n很大時(shí),后驗(yàn)近似為當(dāng)n固定而時(shí),對(duì)應(yīng)先驗(yàn)趨近于均勻分布,上述結(jié)論也成立17例:正態(tài)分布計(jì)算后驗(yàn)區(qū)間,使得所以且因此,由于,所以最后95%的貝葉斯后驗(yàn)區(qū)間為由于,,也可用近似,同頻率置信區(qū)間18參數(shù)的函數(shù)問(wèn)題:已知的貝葉斯后驗(yàn)分布為,求的后驗(yàn)分布兩種方法:利用CDF的定義,先求的CDF,然后求后驗(yàn)密度,其中CDF為仿真/模擬方法19仿真(Simulation)可以通過(guò)仿真而不是解析計(jì)算來(lái)得到點(diǎn)
6、估計(jì)和區(qū)間估計(jì)。假設(shè)我們抽取樣本則的直方圖可以近似后驗(yàn)密度后驗(yàn)的均值近似為后驗(yàn)的置信區(qū)間為,其中為樣本的樣本分位數(shù)(quantile)一旦從中抽取樣本,令則為來(lái)自。這樣避免了解析計(jì)算但仿真可能很復(fù)雜/困難20例:Bernoullil抽樣:令則為的IID,用直方圖方法可以估計(jì)21MLE和貝葉斯令為的極大似然估計(jì),標(biāo)準(zhǔn)誤差為在合適的正則條件下,后驗(yàn)均值的漸近分布為也就是說(shuō),另外,若為漸近頻率的置信區(qū)間,則也是貝葉斯后驗(yàn)的區(qū)間:22MLE和貝葉斯定義則分別展開(kāi)23MLE和貝葉斯將先驗(yàn)也展開(kāi)I0為先驗(yàn)中θ的信息m0最大化f(θ)24MLE和貝葉斯定義結(jié)合展開(kāi),得到25MLE和貝葉斯后驗(yàn)簡(jiǎn)化為結(jié)
7、論:當(dāng)n相對(duì)參數(shù)數(shù)目很大時(shí),如果先驗(yàn)符合真正的知識(shí),則貝葉斯區(qū)間和頻率區(qū)間相同。當(dāng)數(shù)據(jù)越多時(shí),先驗(yàn)的影響越弱。26先驗(yàn)知識(shí)從哪兒來(lái)呢?我們可能在觀測(cè)數(shù)據(jù)之前就有一些主觀觀點(diǎn)或真正的先驗(yàn)知識(shí)。但是,通常我們并沒(méi)有真正的先驗(yàn)知識(shí)或者我們?cè)谪惾~斯估計(jì)時(shí)想更客觀些,這時(shí)可以選擇無(wú)信息的先驗(yàn)(noninformativeprior)?;蛘呖梢詮臄?shù)據(jù)估計(jì)先驗(yàn)。這被稱為經(jīng)驗(yàn)貝葉斯(empiricalBayes),有時(shí)亦稱第II類的極大似然(TypeIImax