資源描述:
《經(jīng)典線性回歸模型自變量選擇.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、§2.9自變量選擇信息時(shí)代的一個(gè)重要特征是數(shù)據(jù)便宜信息值錢,我們經(jīng)常要從海量數(shù)據(jù)中挖掘有用信息。比如影響產(chǎn)品質(zhì)量的因素,從生產(chǎn)過(guò)程、員工培訓(xùn)過(guò)程到原材料供應(yīng)過(guò)程,可能多達(dá)幾百個(gè),甚至上千個(gè)。對(duì)這些質(zhì)量指標(biāo)和影響因素制造商在日常生產(chǎn)管理過(guò)程中都有記錄?,F(xiàn)在的問(wèn)題是如何從這眾多的影響因素中找出影響產(chǎn)品質(zhì)量的重要因素。有時(shí)只需判斷一個(gè)自變量對(duì)因變量是否有重要影響,而不需要了解它們之間的精確定量關(guān)系。比如判斷原材料供應(yīng)對(duì)產(chǎn)品質(zhì)量是否有重要影響比了解它們之間的精確定量關(guān)系更重要。線性回歸模型的自變量選擇就是用于有眾多自變量時(shí)識(shí)別重要自變
2、量的方法。用于線性回歸模型自變量選擇的方法可分為兩類:全局擇優(yōu)法和逐步回歸法。一、全局擇優(yōu)法全局擇優(yōu)法就是用衡量回歸模型與數(shù)據(jù)擬合程度的準(zhǔn)則,從全部可能的回歸模型中選擇對(duì)數(shù)據(jù)擬合最優(yōu)的回歸模型。對(duì)于一個(gè)包含P個(gè)自變量的回歸問(wèn)題,全部可能的回歸模型有個(gè),全局擇優(yōu)法要求出每個(gè)回歸模型的準(zhǔn)則值,然后找出最優(yōu)的回歸模型?;貧w模型對(duì)數(shù)據(jù)的擬合程度可用殘差平方和來(lái)表示。殘差平方和越小,模型擬合的越好。但殘差平方和的大小與因變量的計(jì)量單位有關(guān),因此我們定義了決定系數(shù)。決定系數(shù)越大,模型擬合的越好。決定系數(shù)不僅與因變量的計(jì)量單位無(wú)關(guān),而且能說(shuō)
3、明在因變量的變異中,歸功于自變量變化的部分所占比例。但不論是用殘差平方和還是用決定系數(shù)來(lái)度量線性擬合模型擬合程度,都會(huì)得出模型中包含越多自變量擬合就越好的結(jié)論。但在樣本容量給定的情況下,自變量越多,模型就越復(fù)雜,模型參數(shù)估計(jì)就越不精確,導(dǎo)致模型應(yīng)用的效果就越差。因此我們需要能綜合用殘差平方和表示的模型擬合精度和用模型中包含的自變量個(gè)數(shù)表示的模型復(fù)雜程度的準(zhǔn)則,以便選擇出最優(yōu)的回歸模型。回歸分析中用于選擇自變量的準(zhǔn)則很多。由于殘差平方和RSSp和決定系數(shù)R2只考慮模型擬合精度,因而只能作為自變量個(gè)數(shù)相同時(shí)自變量選擇的準(zhǔn)則。殘差均
4、方s2和修正決定系數(shù)是一個(gè)綜合模型擬合精度和模型復(fù)雜程度的準(zhǔn)則。綜合性準(zhǔn)則除了殘差均方和修正決定系數(shù)外,還有如下一些準(zhǔn)則:·MallowsCp準(zhǔn)則其中,s2為包含全部自變量的擬合模型的殘差均方,RSSp為當(dāng)前擬合模型的殘差平方和,p為當(dāng)前擬合模型的自變量個(gè)數(shù)?!ば畔?zhǔn)則信息準(zhǔn)則根據(jù)公式計(jì)算,其中l(wèi)ogLik=-n{log(RSS/n)+log(2π)+1}/2為當(dāng)前擬合模型的對(duì)數(shù)似然函數(shù),npar為當(dāng)前擬合模型的參數(shù)個(gè)數(shù),當(dāng)k=2時(shí)稱為AIC準(zhǔn)則,當(dāng)k=log(n)時(shí)稱為BIC準(zhǔn)則。在小樣本情況下,AIC準(zhǔn)則的表現(xiàn)不太好,為此
5、人們提出的修正AIC準(zhǔn)則AICc,其計(jì)算公式為R中計(jì)算當(dāng)前擬合模型信息準(zhǔn)則的函數(shù)有(其中fit為當(dāng)前擬合模型對(duì)象)AIC(fit,k=2)k=2(缺省)時(shí)計(jì)算k=log(n)時(shí)計(jì)算extractAIC(fit,scale,k=2)指定scale=s2,計(jì)算當(dāng)前擬合模型的Cp準(zhǔn)則不指定scale,k=2(缺省)時(shí)計(jì)算不指定scale,k=log(n)時(shí)計(jì)算R的附加程序包qpcR中的函數(shù)AICc(fit)可計(jì)算當(dāng)前擬合模型的修正信息準(zhǔn)則·預(yù)測(cè)平方和準(zhǔn)則其中,,表示刪除第i個(gè)案例后,用剩余的(n-1)個(gè)案例估計(jì)的擬合模型對(duì)第i個(gè)案例
6、的預(yù)測(cè)誤差。R的附加程序包qpcR中的函數(shù)PRESS(fit)可計(jì)算預(yù)測(cè)平方和。此函數(shù)的返回值是一個(gè)列表,其中包含三個(gè)元素,(1)名字為stat的預(yù)測(cè)平方和;(2)名字為residuals的預(yù)測(cè)殘差向量;(3)名字為P.square的P2,其計(jì)算公式為:R的的附加程序包leaps中的函數(shù)leaps()和regsubsets()均可用來(lái)完成全局最優(yōu)的選擇。leaps()依據(jù)Cp準(zhǔn)則、修正R2準(zhǔn)則和R2準(zhǔn)則來(lái)選擇全局最優(yōu)回歸模型;regsubsets()函數(shù)則只能選出不同自變量個(gè)數(shù)的局部最優(yōu)的模型,我們?cè)購(gòu)倪@些局部的最優(yōu)模型中選出
7、全局最優(yōu)的模型。例:高速公路事故數(shù)據(jù)library(alr3)attach(highway)y=log(Rate)x1=log(Len)x2=log(ADT)x3=log(Trks)x4=log((Sigs*Len+1)/Len)x5=Slimx6=Shldx7=Lanex8=Acptx9=Itgx10=Lwidx11=as.numeric(Hwy==1)x12=as.numeric(Hwy==2)x13=as.numeric(Hwy==3)考慮汽車意外事故率(事故數(shù)/百萬(wàn)行車)與一些可能的相關(guān)之間的關(guān)系。數(shù)據(jù)包括1973年在
8、明尼蘇達(dá)州的39段高速公路。ADT以千計(jì)的平均是流量(估計(jì))Trks卡車容量在全部容量中的百分比Lane在兩個(gè)方向上的交通車道總數(shù)Acpt路段中每英里的進(jìn)入點(diǎn)Sigs路段中每英里信號(hào)交換數(shù)Itg路段中每英里的快車道類型交換數(shù)Slim時(shí)速限制(在1973年)Len段的長(zhǎng)度(英里