資源描述:
《Logistic回歸分析方法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、Logistic回歸分析公共衛(wèi)生學(xué)院一、前言應(yīng)變量為分類指標的資料線性回歸分析:應(yīng)變量為連續(xù)計量資料二、Logistic回歸模型Logistic回歸的分類二分類多分類條件Logistic回歸非條件Logistic回歸Logit變換也稱對數(shù)單位轉(zhuǎn)換logitP=流行病學(xué)概念:設(shè)P表示暴露因素X時個體發(fā)病的概率,則發(fā)病的概率P與未發(fā)病的概率1-P之比為優(yōu)勢(odds),logitP就是odds的對數(shù)值。Logistic回歸模型Logistic回歸的logit模型Logistic回歸模型三、參數(shù)估計最大似然估計法(M
2、aximumlikehoodestimate)似然函數(shù):L=∏Pi對數(shù)似然函數(shù):lnL=∑(lnP)=lnP1+lnP2+…+lnPn非線性迭代方法——Newton-Raphson法四、參數(shù)檢驗似然比檢驗(likehoodratiotest)通過比較包含與不包含某一個或幾個待檢驗觀察因素的兩個模型的對數(shù)似然函數(shù)變化來進行,其統(tǒng)計量為G(又稱Deviance)。G=-2(lnLp-lnLk)樣本量較大時,G近似服從自由度為待檢驗因素個數(shù)的?2分布。比分檢驗(scoretest)以未包含某個或幾個變量的模型為基礎(chǔ),
3、保留模型中參數(shù)的估計值,并假設(shè)新增加的參數(shù)為零,計算似然函數(shù)的一價偏導(dǎo)數(shù)(又稱有效比分)及信息距陣,兩者相乘便得比分檢驗的統(tǒng)計量S。樣本量較大時,S近似服從自由度為待檢驗因素個數(shù)的?2分布。Wald檢驗(waldtest)即廣義的t檢驗,統(tǒng)計量為uu服從正態(tài)分布,即為標準正態(tài)離差。Logistic回歸系數(shù)的區(qū)間估計上述三種方法中,似然比檢驗最可靠,比分檢驗一般與它相一致,但兩者均要求較大的計算量;而Wald檢驗未考慮各因素間的綜合作用,在因素間有共線性時結(jié)果不如其它兩者可靠。五、回歸系數(shù)的意義單純從數(shù)學(xué)上講,與
4、多元線性回歸分析中回歸系數(shù)的解釋并無不同,亦即bi表示xi改變一個單位時,logitP的平均變化量。流行病學(xué)中的一些基本概念:相對危險度(relativerisk):RR=P1/P2比數(shù)Odds=P/(1-P)比數(shù)比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率較小情況下,OR≈RRLogistic回歸中的常數(shù)項(b0)表示,在不接觸任何潛在危險/保護因素條件下,效應(yīng)指標發(fā)生與不發(fā)生事件的概率之比的對數(shù)值。Logistic回歸中的回歸系數(shù)(bi)表示,某一因素改變一個單位時,效應(yīng)指標發(fā)生與不發(fā)生事
5、件的概率之比的對數(shù)變化值,即OR的對數(shù)值。Logistic回歸系數(shù)的意義分析因素xi為二分類變量時,存在(暴露)xi=1,不存在(未暴露)xi=0,則Logistic回歸中xi的系數(shù)bi就是暴露與非暴露優(yōu)勢比的對數(shù)值.即OR=exp(bi)=e(bi)分析因素xi為多分類變量時,為方便起見,常用1,2,…,k分別表示k個不同的類別。進行Logistic回歸分析前需將該變量轉(zhuǎn)換成k-1個指示變量或啞變量(design/dummyvariable),這樣指示變量都是一個二分變量,每一個指示變量均有一個估計系數(shù),即回
6、歸系數(shù),其解釋同前。分析因素xi為等級變量時,如果每個等級的作用相同,可按計量資料處理:如以最小或最大等級作參考組,并按等級順序依次取為0,1,2,…。此時,e(bi)表示xi增加一個等級時的優(yōu)勢比,e(k*bi)表示xi增加k個等級時的優(yōu)勢比。如果每個等級的作用不相同,則應(yīng)按多分類資料處理。分析因素xi為連續(xù)性變量時,e(bi)表示xi增加一個計量單位時的優(yōu)勢比。多因素Logistic回歸分析時,對回歸系數(shù)的解釋都是指在其它所有自變量固定的情況下的優(yōu)勢比。存在因素間交互作用時,Logistic回歸系數(shù)的解釋變
7、得更為復(fù)雜,應(yīng)特別小心。根據(jù)Wald檢驗,可知Logistic回歸系數(shù)bi服從u分布。因此其可信區(qū)間為進而,優(yōu)勢比e(bi)的可信區(qū)間為六、Logistic回歸分析方法基本思想同線性回歸分析。從所用的方法看,有強迫法、前進法、后退法和逐步法。在這些方法中,篩選變量的過程與線性回歸過程的完全一樣。但其中所用的統(tǒng)計量不再是線性回歸分析中的F統(tǒng)計量,而是以上介紹的參數(shù)檢驗方法中的三種統(tǒng)計量之一。為計算方便,通常向前選取變量用似然比或比分檢驗,而向后剔除變量常用Wald檢驗。七、條件Logistic回歸對配對/比調(diào)查資
8、料,應(yīng)該用條件Logistic回歸分析。對于配比資料,第i個配比組可以建立一個Logistic回歸:假設(shè)自變量在各配比組中對結(jié)果變量的作用是相同的,即自變量的回歸系數(shù)與配比組無關(guān)。配比設(shè)計的Logistic回歸模型其中不含常數(shù)項??梢钥闯龃嘶貧w模型與非條件Logistic回歸模型十分相似,只不過這里的參數(shù)估計是根據(jù)條件概率得到的,因此稱為條件Logistic回歸模型。條件Logisti