資源描述:
《統(tǒng)計(jì)學(xué)教案習(xí)題11多元線性回歸與logistic回歸》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第十一章多元線性回歸與logistic回歸一、教學(xué)大綱要求(一)掌握內(nèi)容1.多元線性回歸分析的概念:多元線性回歸、偏回歸系數(shù)、殘差。2.多元線性回歸的分析步驟:多元線性回歸中偏回歸系數(shù)及常數(shù)項(xiàng)的求法、多元線性回歸的應(yīng)用。3.多元線性回歸分析中的假設(shè)檢驗(yàn):建立假設(shè)、計(jì)算檢驗(yàn)統(tǒng)計(jì)量、確定值下結(jié)論。4.logistic回歸模型結(jié)構(gòu):模型結(jié)構(gòu)、發(fā)病概率比數(shù)、比數(shù)比。5.logistic回歸參數(shù)估計(jì)方法。6.logistic回歸篩選自變量:似然比檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式;篩選自變量的方法。(二)熟悉內(nèi)容常用統(tǒng)計(jì)軟件(SPSS及SAS
2、)多元線性回歸分析方法:數(shù)據(jù)準(zhǔn)備、操作步驟與結(jié)果輸出。(三)了解內(nèi)容標(biāo)準(zhǔn)化偏回歸系數(shù)的解釋意義。二、教學(xué)內(nèi)容精要(一)多元線性回歸分析的概念將直線回歸分析方法加以推廣,用回歸方程定量地刻畫一個(gè)應(yīng)變量與多個(gè)自變量X間的線形依存關(guān)系,稱為多元線形回歸(multiplelinearregression),簡(jiǎn)稱多元回歸(multipleregression)基本形式:式中為各自變量取某定值條件下應(yīng)變量均數(shù)的估計(jì)值,,,…,為自變量,為自變量個(gè)數(shù),為回歸方程常數(shù)項(xiàng),也稱為截距,其意義同直線回歸,,,…,稱為偏回歸系數(shù)(parti
3、alregressioncoefficient),表示在除以外的自變量固定條件下,每改變一個(gè)單位后的平均改變量。(二)多元線性回歸的分析步驟是與一組自變量,,…,相對(duì)應(yīng)的變量的平均估計(jì)值。多元回歸方程中的回歸系數(shù),,…,可用最小二乘法求得,也就是求出能使估計(jì)值和實(shí)際觀察值的殘差平方和為最小值的一組回歸系數(shù),,…,值。根據(jù)以上要求,用數(shù)學(xué)方法可以得出求回歸系數(shù),,…,的下列正規(guī)方程組(normalequation):式中?常數(shù)項(xiàng)可用下式求出:(三)多元線性回歸分析中的假設(shè)檢驗(yàn)在算得各回歸系數(shù)并建立回歸方程后,還應(yīng)對(duì)此多元
4、回歸方程作假設(shè)檢驗(yàn),判斷自變量,,…,是否與真有線性依存關(guān)系,也就是檢驗(yàn)無(wú)效假設(shè)(),備選假設(shè)為各值不全等于0或全不等于0。檢驗(yàn)時(shí)常用統(tǒng)計(jì)量式中為個(gè)體數(shù),為自變量的個(gè)數(shù)。式中(四)logistic回歸模型結(jié)構(gòu)設(shè)為一組自變量,為應(yīng)變量。當(dāng)是陽(yáng)性反應(yīng)時(shí),記為=1;當(dāng)是陰性反應(yīng)時(shí),記為=0。用表示發(fā)生陽(yáng)性反應(yīng)的概率;用表示發(fā)生陰性反應(yīng)的概率,顯然+=1。Logistic回歸模型為:同時(shí)可以寫成:式中是常數(shù)項(xiàng);是與研究因素有關(guān)的參數(shù),稱為偏回歸系數(shù)。事件發(fā)生的概率與之間呈曲線關(guān)系,當(dāng)在之間變化時(shí),或在(0,1)之間變化。若有例
5、觀察對(duì)象,第名觀察對(duì)象在自變量作用下的應(yīng)變量為,陽(yáng)性反應(yīng)記為=1,否則=0。相應(yīng)地用表示其發(fā)生陽(yáng)性反應(yīng)的概率;用表示其發(fā)生陰性反應(yīng)的概率,仍然有+=1。和的計(jì)算如下:這樣,第個(gè)觀察對(duì)象的發(fā)病概率比數(shù)(odds)為,第個(gè)觀察對(duì)象的發(fā)病概率比數(shù)為,而這兩個(gè)觀察對(duì)象的發(fā)病概率比數(shù)之比值便稱為比數(shù)比(oddsratio)。對(duì)比數(shù)比取自然對(duì)數(shù)得到關(guān)系式:ln等式左邊是比數(shù)比的自然對(duì)數(shù),等式右邊的是同一因素的不同暴露水平與之差。的流行病學(xué)意義是在其它自變量固定不變的情況下,自變量的暴露水平每改變一個(gè)測(cè)量單位時(shí)所引起的比數(shù)比的自然對(duì)
6、數(shù)改變量。或者說(shuō),在其他自變量固定不變的情況下,當(dāng)自變量的水平每增加一個(gè)測(cè)量單位時(shí)所引起的比數(shù)比為增加前的倍。同多元線性回歸一樣,在比較暴露因素對(duì)反應(yīng)變量相對(duì)貢獻(xiàn)的大小時(shí),由于各自變量的取值單位不同,也不能用偏回歸系數(shù)的大小作比較,而須用標(biāo)準(zhǔn)化偏回歸系數(shù)來(lái)做比較。標(biāo)準(zhǔn)化偏回歸系數(shù)值的大小,直接反映了其相應(yīng)的暴露因素對(duì)應(yīng)變量的相對(duì)貢獻(xiàn)的大小。標(biāo)準(zhǔn)化偏回歸系數(shù)的計(jì)算,可利用有關(guān)統(tǒng)計(jì)軟件在計(jì)算機(jī)上解決。(五)logistic回歸參數(shù)估計(jì)由于logistic回歸是一種概率模型,通常用最大似然估計(jì)法(maximumlikelih
7、oodestimate)求解模型中參數(shù)的估計(jì)值。為在作用下的陽(yáng)性事件(或疾?。┌l(fā)生的指示變量。其賦值為:第個(gè)觀察對(duì)象對(duì)似然函數(shù)的貢獻(xiàn)量為:當(dāng)各事件是獨(dú)立發(fā)生時(shí),則個(gè)觀察對(duì)象所構(gòu)成的似然函數(shù)是每個(gè)觀察對(duì)象的似然函數(shù)貢獻(xiàn)量的乘積,即式中∏為從1到的連乘積。依最大似然估計(jì)法的原理,使得達(dá)到最大時(shí)的參數(shù)值即為所求的參數(shù)估計(jì)值,計(jì)算時(shí)通常是將該似然函數(shù)取自然對(duì)數(shù)(稱為對(duì)數(shù)似然函數(shù))后,用Newton—Raphson迭代算法求解參數(shù)估計(jì)值。(六)logistic回歸篩選自變量在logistic回歸中,篩選自變量的方法有似然比檢驗(yàn)(
8、likelihoodratiotest)、計(jì)分檢驗(yàn)(scoretest)、Wald檢驗(yàn)(Waldtest)三種。其中似然比檢驗(yàn)較為常用,用Λ表示似然比檢驗(yàn)統(tǒng)計(jì)量,計(jì)算公式為:式中為自然對(duì)數(shù)的符號(hào),為方程中包含個(gè)自變量的似然函數(shù)值,為在方程中包含原個(gè)自變量的基礎(chǔ)上再加入1個(gè)新自變量后的似然函數(shù)值。在無(wú)效假設(shè)條件下,統(tǒng)計(jì)量Λ服從自由度