資源描述:
《《線性回歸模型》ppt課件》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、線性回歸模型戴之瑤,魏凌云,王楊,周仕君中國人民大學統計學院2015級碩士生教材:孟生旺,《回歸模型》,中國人民大學出版社,2015(2)主要內容1.1模型結構和假設1.2解釋變量1.3參數估計1.4異方差與加權最小二乘估計1.5假設檢驗1.6模型診斷和改進1.7模型的評價與比較1.8應用示例1.1模型結構和假設(3)(4)1.1模型結構和假設假設我們感興趣的變量是,希望建立它與其他個解釋變量之間的函數關系。最一般的函數形式可以表示為:式中是隨機誤差。在線性回歸模型中,設是一個線性函數,可得線性回歸模型為:如果對因變量和解釋變量有n次觀測,第i次觀測值記為和則相應的線性回歸模
2、型可以表示為:為方便起見,線性回歸模型可以表示為矩陣形式:式中,(5)(6)基本假設(1)誤差項的均值為零,且與解釋變量相互獨立,即(2)誤差項獨立同分布,即每個誤差項之間相互獨立且每個誤差項的方差都相等:(3)解釋變量之間線性無關(4)正態(tài)假設,即假設誤差項服從正態(tài)分布:在上述假設下,可得:1.2解釋變量(7)(8)1.2解釋變量1.2.1分類解釋變量如果解釋變量是分類變量,在建模過程中需要把分類解釋變量轉化為虛擬變量。為避免解釋變量之間出現完全共線性,虛擬變量個數等于分類變量的水平數減去1。(9)Example:車型是一個分類解釋變量,有A,B,C,D四個水平,可以轉化為
3、x1,x2,x3三個虛擬變量,定義如下表所示:車型x1x2x3A100B010C001D000(10)假設車型是模型中唯一的解釋變量,則線性回歸模型的擬合值表示為:根據模型,可以求得不同車型條件下對因變量的擬合值為:在模型中,車型D是基準水平,也稱參照水平。為了預測結果的穩(wěn)定性,通常選擇觀測值較多的水平為基準水平。在R中的實現:type=factor(c("A","B","C","0D"))model.matrix(~type)車型=A車型=B車型=C車型=D(11)1.2.2交互效應交互效應是指一個解釋變量對因變量的影響與另一個解釋變量有關。譬如,不同性別的駕駛人,其年齡對
4、索賠頻率的影響是不同的,即年齡和性別之間存在交互效應。(12)1.2.3變量的標準化為了消除量綱的影響,可以考慮對變量進行標準化處理,即:式中,(13)Example:表示汽車保險的索賠頻率;表示駕駛人的年齡,是一個連續(xù)變量;表示性別,是一個虛擬變量,值為0表示男性,1表示女性;表示年齡和性別的交互效應;則線性回歸模型的擬合值可以表示為:在模型中,年齡每增加一單位,對索賠頻率擬合值的影響是一個跟性別有關的值,即:(14)基于標準化以后的數據建立的回歸模型為:回歸系數間有下述關系:標準化回歸系數的絕對值大小度量了解釋變量的相對重要性,值越大,表明該解釋變量對因變量的影響越大。在
5、R中,用scale(data)實現標準化(15)1.2.4變量變換解釋變量與因變量之間如果是非線性關系,可以考慮對解釋變量進行變換或建立多項式回歸模型。多項式回歸是把一個解釋變量的冪變換作為新的解釋變量引入回歸模型。為簡化表述,不妨假設只有一個原始解釋變量,則m次多項式回歸模型的基本形式如下:所以多項式回歸也屬于線性回歸模型。(16)在普通多項式回歸中,多項式的階數不同,參數估計結果也不同。為了克服這種缺陷,可以使用正交多項式回歸模型,即把原來的解釋變量轉化為新的正交解釋變量。譬如,三階正交多項式回歸模型為表示為:(17)在R中的實現:set.seed(10)x=1:20y=
6、2+x+x^2+runif(20)*50mod1=lm(y~x)mod2=lm(y~poly(x,2))mod3=lm(y~poly(x,19))plot(y~x,yaxs='i',pch=19,ylim=c(0,500),xlim=c(0,21),xaxs='i',las=1)abline(mod1)points(x,fitted(mod2),col=2,type='l',lty=4,pch='')points(x,fitted(mod3),col=4,type='l',lty=5,pch='')legend(1,450,c('一元線性回歸','二次多項式回歸','19次多
7、項式回歸'),lty=c(1,2,3),col=c(1,2,4))(18)如果解釋變量取值較大,多項式模型中高次項可能會導致計算溢出,從而使得對其參數的估計值出現下溢。解決這一問題的常用方法是對解釋變量進行下述變換:如果模型中包含多個自變量(譬如兩個),則模型可表示為:在多項式回歸模型中,如果已經包含高次項,則所有的低次項通常也要保留在模型中。(19)1.3參數估計(20)(21)1.3參數估計1.3.1最小二乘估計回歸參數的最小二乘估計可以通過最小化殘差平方和求得:對S關于求偏導,并令其等于零,即得得