線性回歸中的模型選擇.ppt

線性回歸中的模型選擇.ppt

ID:52646637

大?。?40.00 KB

頁數(shù):49頁

時(shí)間:2020-04-12

線性回歸中的模型選擇.ppt_第1頁
線性回歸中的模型選擇.ppt_第2頁
線性回歸中的模型選擇.ppt_第3頁
線性回歸中的模型選擇.ppt_第4頁
線性回歸中的模型選擇.ppt_第5頁
資源描述:

《線性回歸中的模型選擇.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在PPT專區(qū)-天天文庫。

1、線性回歸中的模型選擇多元回歸分析中,輸入特征可能有許多,這些特征對模型都是必須的?否因?yàn)椋侯A(yù)測準(zhǔn)確性:當(dāng)回歸模型中變量增多時(shí),預(yù)測的偏差的低但方差高(過擬合)可解釋性:當(dāng)回歸模型中的預(yù)測子數(shù)目很多時(shí),模型很難解釋希望找到效果更明顯的少數(shù)預(yù)測子1模型選擇模型選擇模型評估:用一些指標(biāo)來衡量每個(gè)模型解析計(jì)算:AIC/BIC/MDL模擬計(jì)算:交叉驗(yàn)證/bootstap模型搜索:在模型空間中搜索,找到在某個(gè)衡量指標(biāo)下最優(yōu)的模型模型空間不大:窮舉搜索否則:貪心搜索前向/后向/雙向逐步上述模型選擇是離散的,亦稱子集選擇。另一類方法為連續(xù)的收縮方法嶺回歸Lasso

2、2回顧:線性回歸模型假定不依賴于x:其中模型類型:參數(shù)模型損失:平方誤差損失參數(shù)選擇:訓(xùn)練數(shù)據(jù)上的最小平方誤差(最小二乘,在高斯噪聲假設(shè)下,=極大似然)計(jì)算:矩陣求逆/QR分解模型選擇:AIC/BIC3回顧:線性回歸模型最小二乘參數(shù)估計(jì)的結(jié)果:點(diǎn)估計(jì):偏差:方差:的無偏估計(jì)為:4回顧:線性回歸模型預(yù)測結(jié)果:點(diǎn)估計(jì):偏差:方差其中是固有的,與參數(shù)的估計(jì)無關(guān)。對不同的估計(jì),得到的預(yù)測的方差不同(不同)5子集選擇只保留變量的一個(gè)子集,將其余變量從模型中刪除(將其系數(shù)置為0)當(dāng)p較小時(shí),可窮盡搜索最佳子集對每個(gè),其中p為變量的總數(shù)目,找出容量為k的子集,計(jì)

3、算每個(gè)模型的得分(AIC/BIC)具體算法參考Furnival&Wilson1974容量較大的最佳子集不必包含容量較小的最佳子集6AIC:AkaikeInformationCriterionAIC為模型M測試誤差的一個(gè)估計(jì):其中為在模型M對應(yīng)的訓(xùn)練集數(shù)據(jù)的對數(shù)似然函數(shù),p為模型M中特征的數(shù)目我們選擇測試誤差最小的模型,等價(jià)于選擇下述表達(dá)式最大的模型Akaike,Hirotugu(December1974)."Anewlookatthestatisticalmodelidentification".IEEETransactionsonAutomati

4、cControl19(6):訓(xùn)練集上的擬合度模型復(fù)雜度7AIC:AkaikeInformationCriterion當(dāng)假設(shè)高斯噪聲時(shí),這樣導(dǎo)出AIC另一種表示:其中為從一個(gè)低偏差估計(jì)的MSE估計(jì)低偏差估計(jì):復(fù)雜模型,即包括所有特征的模型8BIC:BayesianInformationCriterion類似AIC,可用于極大對數(shù)似然實(shí)現(xiàn)的擬合中所以最小化BIC,等價(jià)于最大化最小描述長度(MDL)的結(jié)論同BICSchwarz,G.1978.Estimatingthedimensionofamodel.AnnalsofStatistics,6,461-4

5、64.9前向逐步回歸從截距開始,每次增加一個(gè)特征計(jì)算增加特征后每個(gè)模型的AIC,假設(shè)當(dāng)前模型有k個(gè)輸入特征,則其AIC為:選擇AIC最小的模型直到AIC不再變小10后向逐步回歸從包含所有特征的模型開始,每次去掉一個(gè)特征計(jì)算去掉特征后每個(gè)模型的AIC選擇AIC最小的模型直到AIC不再變小11例:前列腺癌—后向逐步回歸所有變量都用:k=8去掉一個(gè)變量,k=7,去掉變量后的AIC分別為去掉最小AIC對應(yīng)的特征,即去掉gleasonlcavollweightagelbphsvilcpgleasonpgg45100.797179.566873.948676.

6、226578.097275.485472.021575.020112例:前列腺癌—后向逐步回歸(續(xù))最小AIC為72.0215,再繼續(xù)去掉一個(gè)變量:k=6此時(shí)最小的AIC(72.1945)也比72.0215大,不過也沒比72.0215大多少所以根據(jù)AIC準(zhǔn)則,用后向逐步回歸最后選擇的模型為k=7lcavollweightagelbphsvilcppgg4599.364877.915072.194574.230576.262773.487174.703713例:前列腺癌—后向逐步回歸(續(xù))如果不停止,而是繼續(xù)后向逐步回歸,直到刪除所有特征,則接下來刪

7、除的特征及其對應(yīng)的AIC分別為k=7,刪除gleason,AIC=72.0215k=6,刪除age,AIC=72.1945k=5,刪除lcp,AIC=73.2095k=4,刪除pgg45,AIC=72.6790k=3,刪除lbph,AIC=74.8309k=2,刪除svi,AIC=77.1088k=1,刪除lweight,AIC=89.7667k=0,刪除lcavol,AIC=189.772714例:前列腺癌—后向逐步回歸(續(xù)):模型與訓(xùn)練集的擬合程度模型越復(fù)雜,與訓(xùn)練數(shù)據(jù)擬合得越好,但可能過擬合AIC:測試誤差的估計(jì),與訓(xùn)練集的擬合程度和模型復(fù)雜

8、度都有關(guān)15例:前列腺癌—前向逐步回歸不用任何變量:k=0增加一個(gè)變量,k=1,增加變量后的AIC分別為增加最小AIC對應(yīng)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。