資源描述:
《線性回歸中的模型選擇.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在PPT專區(qū)-天天文庫。
1、線性回歸中的模型選擇多元回歸分析中,輸入特征可能有許多,這些特征對模型都是必須的?否因?yàn)椋侯A(yù)測準(zhǔn)確性:當(dāng)回歸模型中變量增多時(shí),預(yù)測的偏差的低但方差高(過擬合)可解釋性:當(dāng)回歸模型中的預(yù)測子數(shù)目很多時(shí),模型很難解釋希望找到效果更明顯的少數(shù)預(yù)測子1模型選擇模型選擇模型評估:用一些指標(biāo)來衡量每個(gè)模型解析計(jì)算:AIC/BIC/MDL模擬計(jì)算:交叉驗(yàn)證/bootstap模型搜索:在模型空間中搜索,找到在某個(gè)衡量指標(biāo)下最優(yōu)的模型模型空間不大:窮舉搜索否則:貪心搜索前向/后向/雙向逐步上述模型選擇是離散的,亦稱子集選擇。另一類方法為連續(xù)的收縮方法嶺回歸Lasso
2、2回顧:線性回歸模型假定不依賴于x:其中模型類型:參數(shù)模型損失:平方誤差損失參數(shù)選擇:訓(xùn)練數(shù)據(jù)上的最小平方誤差(最小二乘,在高斯噪聲假設(shè)下,=極大似然)計(jì)算:矩陣求逆/QR分解模型選擇:AIC/BIC3回顧:線性回歸模型最小二乘參數(shù)估計(jì)的結(jié)果:點(diǎn)估計(jì):偏差:方差:的無偏估計(jì)為:4回顧:線性回歸模型預(yù)測結(jié)果:點(diǎn)估計(jì):偏差:方差其中是固有的,與參數(shù)的估計(jì)無關(guān)。對不同的估計(jì),得到的預(yù)測的方差不同(不同)5子集選擇只保留變量的一個(gè)子集,將其余變量從模型中刪除(將其系數(shù)置為0)當(dāng)p較小時(shí),可窮盡搜索最佳子集對每個(gè),其中p為變量的總數(shù)目,找出容量為k的子集,計(jì)
3、算每個(gè)模型的得分(AIC/BIC)具體算法參考Furnival&Wilson1974容量較大的最佳子集不必包含容量較小的最佳子集6AIC:AkaikeInformationCriterionAIC為模型M測試誤差的一個(gè)估計(jì):其中為在模型M對應(yīng)的訓(xùn)練集數(shù)據(jù)的對數(shù)似然函數(shù),p為模型M中特征的數(shù)目我們選擇測試誤差最小的模型,等價(jià)于選擇下述表達(dá)式最大的模型Akaike,Hirotugu(December1974)."Anewlookatthestatisticalmodelidentification".IEEETransactionsonAutomati
4、cControl19(6):訓(xùn)練集上的擬合度模型復(fù)雜度7AIC:AkaikeInformationCriterion當(dāng)假設(shè)高斯噪聲時(shí),這樣導(dǎo)出AIC另一種表示:其中為從一個(gè)低偏差估計(jì)的MSE估計(jì)低偏差估計(jì):復(fù)雜模型,即包括所有特征的模型8BIC:BayesianInformationCriterion類似AIC,可用于極大對數(shù)似然實(shí)現(xiàn)的擬合中所以最小化BIC,等價(jià)于最大化最小描述長度(MDL)的結(jié)論同BICSchwarz,G.1978.Estimatingthedimensionofamodel.AnnalsofStatistics,6,461-4
5、64.9前向逐步回歸從截距開始,每次增加一個(gè)特征計(jì)算增加特征后每個(gè)模型的AIC,假設(shè)當(dāng)前模型有k個(gè)輸入特征,則其AIC為:選擇AIC最小的模型直到AIC不再變小10后向逐步回歸從包含所有特征的模型開始,每次去掉一個(gè)特征計(jì)算去掉特征后每個(gè)模型的AIC選擇AIC最小的模型直到AIC不再變小11例:前列腺癌—后向逐步回歸所有變量都用:k=8去掉一個(gè)變量,k=7,去掉變量后的AIC分別為去掉最小AIC對應(yīng)的特征,即去掉gleasonlcavollweightagelbphsvilcpgleasonpgg45100.797179.566873.948676.
6、226578.097275.485472.021575.020112例:前列腺癌—后向逐步回歸(續(xù))最小AIC為72.0215,再繼續(xù)去掉一個(gè)變量:k=6此時(shí)最小的AIC(72.1945)也比72.0215大,不過也沒比72.0215大多少所以根據(jù)AIC準(zhǔn)則,用后向逐步回歸最后選擇的模型為k=7lcavollweightagelbphsvilcppgg4599.364877.915072.194574.230576.262773.487174.703713例:前列腺癌—后向逐步回歸(續(xù))如果不停止,而是繼續(xù)后向逐步回歸,直到刪除所有特征,則接下來刪
7、除的特征及其對應(yīng)的AIC分別為k=7,刪除gleason,AIC=72.0215k=6,刪除age,AIC=72.1945k=5,刪除lcp,AIC=73.2095k=4,刪除pgg45,AIC=72.6790k=3,刪除lbph,AIC=74.8309k=2,刪除svi,AIC=77.1088k=1,刪除lweight,AIC=89.7667k=0,刪除lcavol,AIC=189.772714例:前列腺癌—后向逐步回歸(續(xù)):模型與訓(xùn)練集的擬合程度模型越復(fù)雜,與訓(xùn)練數(shù)據(jù)擬合得越好,但可能過擬合AIC:測試誤差的估計(jì),與訓(xùn)練集的擬合程度和模型復(fù)雜
8、度都有關(guān)15例:前列腺癌—前向逐步回歸不用任何變量:k=0增加一個(gè)變量,k=1,增加變量后的AIC分別為增加最小AIC對應(yīng)