資源描述:
《第十一章 多元線形回歸分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第十一章多元相關(guān)與回歸分析第一節(jié)多元線性回歸模型多元線性回歸即多個自變量對一個因變量的線性回歸。一、多元線性回歸模型概念以兩個自變量的二元回歸為例,如X1、X2和Y的關(guān)系存在關(guān)系式:E(Y)=α+β1X1+β2X2,則Y與X1和X2之間存在多元線性相關(guān)關(guān)系,這一方程即多元線性回歸模型。多元線性回歸是多維空間中的超平面,如二元回歸是三維空間中的一個平面。對于任意的(X1,X2),Y的期望值就是該平面上正對(X1,X2)的那個點的Y軸值,其與實際觀測點之間存在隨機(jī)誤差,實際觀測點Yi=α+β1X1+β2X2+εi。二、模型的建立總體未知情況下,以樣本構(gòu)造出一個平面來估
2、計總體真實平面,即以平面?=a+b1x1+b2x2去擬合原始觀測數(shù)據(jù)。擬合的準(zhǔn)則是最小二乘法原理,使各觀測值距離擬合值的偏差平方和最小,即∑(yi-?)2最小。由此計算出的a,b1,b2是對α,β1,β2的最佳估計。例如對施肥量X1、降雨量X2和產(chǎn)量Y的數(shù)據(jù),SPSS輸出結(jié)果(表1):VariableBSE.BBetaTX13.810.5830.596.532X23.330.6170.495.4Constant266.732.0778.313即得到?=266.7+3.81x1+3.33x2三、回歸系數(shù)的意義對于模型?=a+b1x1+b2x2,b1可以解釋為:當(dāng)X2
3、不變的情況下,X1每變化一個單位,Y將平均發(fā)生b1個單位的變化。如果所有自變量都同時變化,那么ΔY=b1ΔX1+b2ΔX2+….biΔXi。例題:如果對產(chǎn)量、施肥量、降雨量做出了簡單回歸和多元回歸模型:A模型:產(chǎn)量=287+5.9施肥量;B模型:產(chǎn)量=400+6.0降雨量;C模型:產(chǎn)量=267+3.81施肥量+3.33降雨量;請計算:(1)如果在每畝土地上多施10斤肥料,可以期望產(chǎn)量增加多少?(2)如果在每畝土地上多灌溉5厘米的水,可以期望產(chǎn)量增加多少?(3)如果同時在每畝土地上多施10斤肥料,并且多灌溉5厘米的水,可以期望產(chǎn)量增加多少?(4)由原始數(shù)據(jù)發(fā)現(xiàn)較高的
4、施肥量和較高的降雨量是有聯(lián)系的,如果照這樣的趨勢下去,那么在每畝土地上多灌溉5厘米的水,可以期望產(chǎn)量增加多少?解:(1)ΔY=3.81(10)=38.1斤。(2)ΔY=3.33(5)=16.65斤。(3)ΔY=3.81(10)+3.33(5)=38.1+16.65=54.75斤(4)ΔY=6.0(5)=30斤。采用B模型中的簡單回歸系數(shù)6.0,它表示當(dāng)施肥量也變化時,產(chǎn)量怎樣隨著降雨量的變化而變化。比較題2和題4,30斤的增產(chǎn)不只歸功于降雨量,也包含施肥量的影響;而16.65斤的增產(chǎn)則是在施肥量不變的情況下,伴隨著降雨量的增加而產(chǎn)生的。四、自變量為定類變量時回歸系
5、數(shù)的解釋線形回歸要求自變量和因變量都是定距變量,但當(dāng)自變量為二項變量或定類變量時,可以將其轉(zhuǎn)化為0-1變量/虛擬變量后再進(jìn)行回歸。1、自變量為二項變量時:如研究存款額Y(百元)和年齡X1、性別X2之間的關(guān)系,令男性=1,女性=0(對照組)。如果得到如下多元回歸方程:?=33+12x1-9.1x2,則x2的回歸系數(shù)-9.1表示,對于同年齡的人來說,男性的存款額比女性平均減少910元。1,中學(xué)0,其他1,大學(xué)0,其他2、自變量為定類變量時:如研究收入Y(百元)和文化程度X之間的關(guān)系,假設(shè)文化程度包括小學(xué)、中學(xué)、大學(xué),可將文化程度轉(zhuǎn)化為兩個虛擬變量,D1=D2=,D1=
6、D2=0代表小學(xué)程度(對照組),D1=1,D2=0表示中學(xué)文化程度;D1=0,D2=1表示大學(xué)文化程度。假如得到回歸方程?=33+12D1+30D2,D1的回歸系數(shù)表示中學(xué)文化程度的人比小學(xué)文化程度的人收入平均多1200元;D2的回歸系數(shù)表示大學(xué)文化程度的人比小學(xué)文化程度的人收入平均多3000元。3、如果自變量為連續(xù)變量,但其與因變量的關(guān)系并不是線形關(guān)系,例如年齡X和身高Y的關(guān)系,可以把年齡劃分成年齡段做為定類變量。對于有個水平的定類變量,需要設(shè)計n-1個虛擬變量來描述。第二節(jié)多元線性回歸模型檢驗一、回歸系數(shù)的估計和檢驗在多元回歸中,各個回歸系數(shù)的估計值b1,b2
7、…都圍繞總體回歸系數(shù)β1,β2…近似正態(tài)波動,所以可以用樣本回歸系數(shù)的標(biāo)準(zhǔn)誤差來構(gòu)造總體回歸系數(shù)的置信區(qū)間。標(biāo)準(zhǔn)誤差為表1中的第二列輸出結(jié)果SE.B??傮w回歸系數(shù)置信區(qū)間公式:βi=bi±tα/2SEi,其中,i=1,2,….k;查t分布表時的自由度為n-k-1。例題:以表1為例,計算每個回歸系數(shù)的95%的置信區(qū)間(k=1,2),已知n=7:解:df=7-2-1=4;查表得t0.025=2.776;β1=3.81±2.776(0.583)=3.81±1.618;β2=3.33±2.776(0.617)=3.33±1.713對回歸系數(shù)進(jìn)行檢驗即檢驗H0:βi=0;H
8、1:βi≠