機(jī)器統(tǒng)計(jì)學(xué)習(xí)作業(yè).doc

機(jī)器統(tǒng)計(jì)學(xué)習(xí)作業(yè).doc

ID:56718677

大小:638.50 KB

頁(yè)數(shù):12頁(yè)

時(shí)間:2020-07-06

機(jī)器統(tǒng)計(jì)學(xué)習(xí)作業(yè).doc_第1頁(yè)
機(jī)器統(tǒng)計(jì)學(xué)習(xí)作業(yè).doc_第2頁(yè)
機(jī)器統(tǒng)計(jì)學(xué)習(xí)作業(yè).doc_第3頁(yè)
機(jī)器統(tǒng)計(jì)學(xué)習(xí)作業(yè).doc_第4頁(yè)
機(jī)器統(tǒng)計(jì)學(xué)習(xí)作業(yè).doc_第5頁(yè)
資源描述:

《機(jī)器統(tǒng)計(jì)學(xué)習(xí)作業(yè).doc》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、一、()泛化誤差上界:對(duì)二分類(lèi)問(wèn)題,當(dāng)假設(shè)空間是有限個(gè)函數(shù)的集合時(shí),對(duì)任意一個(gè)函數(shù),至少以概率,以下不等式成立:其中,即的泛化能力:.證明:在證明中要用到Hoeffding不等式,故先敘述如下:設(shè)是獨(dú)立隨機(jī)變量是之和,;為這組隨機(jī)變量的均值,則,以下不等式成立:對(duì)任意函數(shù),是個(gè)獨(dú)立的隨機(jī)變量樣本均值,是隨機(jī)變量的期望值。如果損失函數(shù)取值于區(qū)間,即對(duì)所有,,那么有上述Hoeffding不等式,對(duì),以下不等式成立:由于是一有限集合,故或者等價(jià)的,對(duì)任意,有令則故至少以概率有.二、()以損失函數(shù)推導(dǎo)向量最小化感知機(jī)的損失函數(shù)?感知機(jī)學(xué)習(xí)算法是誤分類(lèi)驅(qū)動(dòng)的,具

2、體采用隨機(jī)梯度下降法。首先,任意選取一個(gè)超平面,然后用梯度下降法不斷極小化目標(biāo)函數(shù),極小化的過(guò)程不是一次使中所有的誤分類(lèi)點(diǎn)的梯度下降,而是一次隨機(jī)選取一個(gè)誤分類(lèi)點(diǎn)使其梯度下降.隨機(jī)梯度下降是一種迭代求解思路,而迭代法參數(shù)尋優(yōu)的基本原理:沿著(代價(jià))函數(shù)下降的方向?qū)ふ覅?shù),能夠找到極值點(diǎn).在我們已經(jīng)學(xué)過(guò)的數(shù)學(xué)知識(shí)中,導(dǎo)數(shù)和方向?qū)?shù)是能找到函數(shù)變化方向的。導(dǎo)數(shù)表示了曲線(xiàn)的斜率(傾斜度),方向?qū)?shù)表示了曲面沿著任意方向的斜率(傾斜度)。一維時(shí),導(dǎo)數(shù)就足夠了。但多維時(shí),就需要借助方向?qū)?shù)了,而我們更希望能找到變化率最大的方向。因此,多維下借用方向?qū)?shù)變化最大的

3、情況:梯度,梯度的方向是函數(shù)某點(diǎn)增長(zhǎng)最快的方向,梯度的大小是該點(diǎn)的最大變化率.故對(duì)于損失函數(shù)的梯度是對(duì)和求偏導(dǎo):三、()如圖所示的訓(xùn)練數(shù)據(jù)集,其正實(shí)例點(diǎn)是,,負(fù)實(shí)例點(diǎn)是,試用感知機(jī)學(xué)習(xí)算法的原始形式求感知機(jī)模型.這里,,.解構(gòu)建最優(yōu)化問(wèn)題:按照感知機(jī)學(xué)習(xí)算法的原始形式,求解,..(1)取初值,(2)對(duì),,未能被正確分類(lèi),更新,.,得到線(xiàn)性模型(1)對(duì),,顯然,,被正確分類(lèi),不修改,.對(duì),,被誤分類(lèi),更新,.,得到線(xiàn)性模型,得到線(xiàn)性模型(5)對(duì),,被誤分類(lèi),更新,,故得到線(xiàn)性模型(6)對(duì),,被誤分類(lèi)點(diǎn),更新,.,故得到線(xiàn)性模型(7)對(duì),,被誤分類(lèi)點(diǎn),更新

4、,.,故得到線(xiàn)性模型(7)對(duì),,被誤分類(lèi)點(diǎn),更新,.,故得到線(xiàn)性模型而該模型對(duì)正實(shí)例點(diǎn),,負(fù)實(shí)例點(diǎn),都有,則沒(méi)有分類(lèi)點(diǎn),損失函數(shù)達(dá)到最小.故分離超平面為感知機(jī)模型為迭代過(guò)程如表四、從統(tǒng)計(jì)角度考慮哪些因素影響近鄰法的準(zhǔn)確度.我們知道近鄰法是一種應(yīng)用廣泛的非參數(shù)分類(lèi)方法,可用于線(xiàn)性不可分的多類(lèi)樣本識(shí)別。它的優(yōu)點(diǎn)是事先并不要求知道待分樣本的分布函數(shù)。目前廣泛使用的近鄰法是以待分類(lèi)樣本為中心做超球體,逐漸擴(kuò)大超球半徑直至超球內(nèi)包含個(gè)已知模式樣本為止,判斷這個(gè)近鄰樣本中多數(shù)屬于哪一類(lèi),就把待分類(lèi)樣本歸為哪一類(lèi)。分類(lèi)算法描述如下:假設(shè)有個(gè)類(lèi)別,.測(cè)試樣本和與其最近

5、的樣本之間的距離為,,其中的下標(biāo)表示類(lèi),上標(biāo)表示類(lèi)個(gè)樣本中第個(gè)樣本.在超球半徑的前提下,求,表示這個(gè)近鄰中屬于的樣本數(shù).上述方法的弱點(diǎn)就是,半徑的選取十分困難.值過(guò)大,超球體的覆蓋面積廣,會(huì)導(dǎo)致其他類(lèi)樣本被錯(cuò)誤的覆蓋,從而加大樣本的誤識(shí)率·反之若值過(guò)小,則不能完全覆蓋該類(lèi)別中可能的樣本點(diǎn).并且近鄰點(diǎn)具有相似的預(yù)測(cè)值,所以的大小也會(huì)影響近鄰法的準(zhǔn)確度.該方法易受噪聲影響,尤其是樣本點(diǎn)中孤立點(diǎn)的影響·而我們知道近鄰法模型由三個(gè)部分構(gòu)成:距離度量,的值,分類(lèi)決策規(guī)則。所以值的選取也會(huì)影響到分類(lèi)結(jié)果.因?yàn)橹档倪x取是根據(jù)每類(lèi)樣本的數(shù)目和分散程度選取的,對(duì)不同的應(yīng)

6、用選取的值也不同·所以我們是要在是在值選定的情況下,對(duì)近鄰點(diǎn)的搜索區(qū)域進(jìn)行合理的定位,即選取合適的的大小,即全局到局部,同時(shí)還要保障分類(lèi)結(jié)果的準(zhǔn)確性.具體方法:首先將樣本空間的樣本點(diǎn)進(jìn)行小規(guī)模有目的性的聚類(lèi),聚類(lèi)后樣本空間中樣本分布的區(qū)域被劃分成,若干個(gè)半徑一定的小超球體·如果能保證超球體內(nèi)主體類(lèi)樣本數(shù)遠(yuǎn)遠(yuǎn)大于雜質(zhì)類(lèi)樣本數(shù),那么搜索時(shí)就可根據(jù)其條件將搜索范圍縮小到某些超球體內(nèi),在這些超球體內(nèi)尋找待分樣本點(diǎn)的個(gè)近鄰點(diǎn)·定義代表全體聚類(lèi)的集合,即中包含全部聚類(lèi)中的數(shù)據(jù)·代表確定的近鄰點(diǎn)的集合,為最近間隔,為競(jìng)爭(zhēng)點(diǎn)集,即可能成為近鄰點(diǎn)的集合·聚類(lèi)后計(jì)算指定點(diǎn)

7、到每個(gè)聚類(lèi)中心的距離,如圖1所示依據(jù)這些距離,聚類(lèi)集被劃分,離最近的聚類(lèi)為,下一個(gè)距離較近的聚類(lèi)為,依次編號(hào)·然后將聚類(lèi)中的所有點(diǎn)添加到中,計(jì)算中所有點(diǎn)與的距離,將滿(mǎn)足條件的點(diǎn)轉(zhuǎn)移到集合中·這樣近鄰點(diǎn)的搜索區(qū)域就可以被大致定位·求近鄰點(diǎn)的關(guān)鍵是確定點(diǎn)到中聚類(lèi)的搜索距離,為此需創(chuàng)建最近間隔·每次近鄰點(diǎn)的搜索范圍便是以待分類(lèi)點(diǎn)為圓心,值為半徑的球體.在整個(gè)搜索過(guò)程中最近間隔一直處在變化過(guò)程中,值修改時(shí)采用使間隔內(nèi)包含盡量少的需要計(jì)算的近鄰點(diǎn)的原則,已確保搜索的準(zhǔn)確性·當(dāng)聚類(lèi)被初始劃分時(shí),由于采用局部聚類(lèi)的方法,因此可能造成兩個(gè)聚類(lèi)存在重疊區(qū)域·為避免重疊區(qū)

8、域的點(diǎn)因重搜索而影響算法效率,所以在計(jì)算最近間隔時(shí),還必須考慮中的聚類(lèi)是否有重疊區(qū)·當(dāng)最近間隔

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。