資源描述:
《多元線性回歸、logistic回歸》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、多因素分析溫州醫(yī)學(xué)院環(huán)境與公共衛(wèi)生學(xué)院葉曉蕾1概念多因素分析是同時(shí)對(duì)觀察對(duì)象的兩個(gè)或兩個(gè)以上的變量進(jìn)行分析。常用的統(tǒng)計(jì)分析方法有:多元線性回歸、Logistic回歸、COX比例風(fēng)險(xiǎn)回歸模型、因子分析、主成分分析,等。2多變量資料數(shù)據(jù)格式例號(hào)X1X2…XpY1X11X12…X1pY12X21X22…X2pY2┆┆┆…┆┆nXn1Xn2…XnpYnY為定量變量——LinearRegressionY為二項(xiàng)分類變量——BinaryLogisticRegressionY為多項(xiàng)分類變量——MultinomialLogisticRegre
2、ssionY為有序分類變量——OrdinalLogisticRegressionY為生存時(shí)間與生存結(jié)局——CoxRegression3Y,X——直線回歸Y,X1,X2,…Xm——多元回歸(多重回歸)第十五章多元線性回歸(multiplelinearregressoin)P.261例:欲研究血壓受年齡、性別、體重、性格、職業(yè)(體力勞動(dòng)或腦力勞動(dòng))、飲食、吸煙、血脂水平等因素的影響。4β0為回歸方程的常數(shù)項(xiàng)(constant),表示各自變量均為0時(shí)y的平均值;m為自變量的個(gè)數(shù);β1、β2、βm為偏回歸系數(shù)(Partialregr
3、essioncoefficient)意義:如β1表示在X2、X3……Xm固定條件下,X1每增減一個(gè)單位對(duì)Y的效應(yīng)(Y增減β個(gè)單位)。e為去除m個(gè)自變量對(duì)Y影響后的隨機(jī)誤差,稱殘差(residual)。多元回歸方程的一般形式一、多元回歸模型5為y的估計(jì)值或預(yù)測(cè)值(predictedvalue);b0為回歸方程的常數(shù)項(xiàng)(constant),表示各自變量均為0時(shí)y的估計(jì)值;由樣本估計(jì)而得的多元回歸方程:b1、b2、bm為偏回歸系數(shù)(Partialregressioncoefficient)意義:如b1表示在X2、X3……Xm固定條
4、件下,X1每增減一個(gè)單位對(duì)Y的效應(yīng)(Y增減b個(gè)單位)。6適用條件:線性(linear)、獨(dú)立性(independent)、正態(tài)性(normal)、等方差(equalvariance)——“LINE”。線性——自變量與應(yīng)變量的關(guān)系是線性的。用散點(diǎn)圖判斷。獨(dú)立性——任意兩個(gè)觀察值互相獨(dú)立。常利用專業(yè)知識(shí)判斷。正態(tài)性——就自變量的任何一個(gè)線性組合,應(yīng)變量y均服從正態(tài)分布。即要求殘差服從正態(tài)分布。常用殘差圖分析。等方差——就自變量的任何一個(gè)線性組合,應(yīng)變量y的方差均相同。即要求殘差的方差齊性。用散點(diǎn)圖或殘差圖判斷。78(1)因素篩選
5、:(因素分析)例如影響高血壓的諸多因素中:1)哪些是主要因素?2)各因素的作用大?。浚?)提高回歸方程的估計(jì)精度多元回歸比只有一個(gè)自變量的簡(jiǎn)單直線回歸更能縮小應(yīng)變量Y對(duì)其估計(jì)值的離差,在預(yù)測(cè)和統(tǒng)計(jì)控制方面應(yīng)用的效果更好。(3)控制混雜因素多元線性回歸除具有直線回歸的基本性質(zhì)外,還具有以下特點(diǎn)(用途):9(1)用各變量的數(shù)據(jù)建立回歸方程(2)對(duì)總的方程進(jìn)行假設(shè)檢驗(yàn)(3)當(dāng)總的方程有顯著性意義時(shí),應(yīng)對(duì)每個(gè)自變量的偏回歸系數(shù)再進(jìn)行假設(shè)檢驗(yàn),若某個(gè)自變量的偏回歸系數(shù)無(wú)顯著性,則應(yīng)把該變量剔除,重新建立不包含該變量的多元回歸方程。二、
6、多元回歸分析步驟對(duì)新建立的多元回歸方程及偏回歸系數(shù)按上述程序進(jìn)行檢驗(yàn),直到余下的偏回歸系數(shù)都具有統(tǒng)計(jì)意義為止。最后得到最優(yōu)方程。10例15-1(P.262)27名糖尿病人的血清總膽固醇、甘油三脂、空腹胰島素、糖化血紅蛋白、空腹血糖的測(cè)量值列于表15-2中,試建立血糖與其它幾項(xiàng)指標(biāo)關(guān)系的多元線性回歸方程。表15-227名糖尿病人的血糖及有關(guān)變量的測(cè)量結(jié)果序號(hào)i總膽固醇甘油三脂胰島素糖化血血糖(mmol/L)(mmol/L)(μU/ml)紅蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.
7、791.647.326.98.836.023.566.9510.812.3………………265.840.928.616.413.3273.841.206.459.610.411由上表得到如下多元線性回歸方程:1、建立回歸方程122、回歸方程的假設(shè)檢驗(yàn)——F檢驗(yàn)結(jié)果無(wú)顯著性1)表明所觀察的自變量與應(yīng)變量不存在線性回歸關(guān)系;2)也可能由于樣本例數(shù)過(guò)少;結(jié)果有顯著性表明至少有一個(gè)自變量與應(yīng)變量之間存在線性回歸關(guān)系。H0:β1=β2=…=βm=0H1:β1、β2、…βm不等于0或不全等于013143、各個(gè)偏回歸系數(shù)的假設(shè)檢驗(yàn)——t檢驗(yàn)
8、將總膽固醇(X1)剔除。注意:通常每次只剔除關(guān)系最弱的一個(gè)因素。對(duì)于同一資料,不同自變量的t值可以相互比較,t的絕對(duì)值越大,或P越小,說(shuō)明該自變量對(duì)Y所起的作用越大。15重新建立不包含提出因素的回歸方程注意:表中偏回歸系數(shù)已變化。16對(duì)新建立的回歸方程進(jìn)行檢驗(yàn)檢驗(yàn)結(jié)果有顯著性意義。17對(duì)新