資源描述:
《二分類Logistic回歸的詳細SPSS操作.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、SPSS操作:二分類Logistic回歸作者:張耀文1、問題與數(shù)據(jù)某呼吸內(nèi)科醫(yī)生擬探討吸煙與肺癌發(fā)生之間的關(guān)系,開展了一項成組設(shè)計的病例對照研究。選擇該科室內(nèi)肺癌患者為病例組,選擇醫(yī)院內(nèi)其它科室的非肺癌患者為對照組。通過查閱病歷、問卷調(diào)查的方式收集了病例組和對照組的以下信息:性別、年齡、BMI、COPD病史和是否吸煙。變量的賦值和部分原始數(shù)據(jù)見表1和表2。該醫(yī)生應(yīng)該如何分析?表1.肺癌危險因素分析研究的變量與賦值因素變量名賦值說明研究對象編號ID性別gender男=1,女=0年齡ageBMIBMIBMI<25=0;BMI≥25=1COPD病史COPD無=0;輕/中度=1
2、;重度=2吸煙smoke無=0;曾吸/現(xiàn)吸=1肺癌cancer對照=0;病例=1表2.部分原始數(shù)據(jù)IDgenderageBMICOPDsmokecancer103401102132010130270111412801105129010060600200712900118129111191370100100170000110200011121350000130171011…………………2、對數(shù)據(jù)結(jié)構(gòu)的分析該設(shè)計中,因變量為二分類,自變量(病例對照研究中稱為暴露因素)有二分類變量(性別、BMI和是否吸煙)、連續(xù)變量(年齡)和有序多分類變量(COPD病史)。要探討二分類因變量
3、與自變量之間的關(guān)系,應(yīng)采用二分類Logistic回歸模型進行分析。在進行二分類Logistic回歸(包括其它Logistic回歸)分析前,如果樣本不多而變量較多,建議先通過單變量分析(t檢驗、卡方檢驗等)考察所有自變量與因變量之間的關(guān)系,篩掉一些可能無意義的變量,再進行多因素分析,這樣可以保證結(jié)果更加可靠。即使樣本足夠大,也不建議直接把所有的變量放入方程直接分析,一定要先弄清楚各個變量之間的相互關(guān)系,確定自變量進入方程的形式,這樣才能有效的進行分析。本例中單變量分析的結(jié)果見表3(常作為研究報告或論文中的表1)。表3.病例組和對照組暴露因素的單因素比較病例組(n=85)對
4、照組(n=259)χ2/t統(tǒng)計量P性別,男(%)56(65.9)126(48.6)7.629<0.01年齡(歲),x±s40.3±14.038.6±12.41.0810.28BMI,n(%)正常48(56.5)137(52.9)0.3290.57超重或肥胖37(43.5)122(47.1)COPD病史,n(%)無21(24.7)114(44.0)14.123<0.01輕中度24(28.2)75(29.0)重度40(47.1)70(27.0)是否吸煙,n(%)否18(21.2)106(40.9)10.829<0.01是67(78.8)153(59.1)單因素分析中,病例組
5、和對照組之間的差異有統(tǒng)計學(xué)意義的自變量包括:性別、COPD病史和是否吸煙。此時,應(yīng)當(dāng)考慮應(yīng)該將哪些自變量納入Logistic回歸模型。一般情況下,建議納入的變量有:1)單因素分析差異有統(tǒng)計學(xué)意義的變量(此時,最好將P值放寬一些,比如0.1或0.15等,避免漏掉一些重要因素);2)單因素分析時,沒有發(fā)現(xiàn)差異有統(tǒng)計學(xué)意義,但是臨床上認為與因變量關(guān)系密切的自變量。本研究中,年齡和BMI與因變量沒有統(tǒng)計學(xué)關(guān)聯(lián)。但是,臨床認為年齡也是肺癌發(fā)生的可能危險因素,因此Logistic回歸模型中,納入以下自變量:性別、年齡、COPD病史和是否吸煙。此外,對于連續(xù)變量,如果僅僅是為了調(diào)整該
6、變量帶來的混雜(不關(guān)心該變量的OR值),則可以直接將改變量納入Logistic回歸模型;如果關(guān)心該變量對因變量的影響程度(關(guān)心該變量的OR值),一般不直接將該連續(xù)變量納入模型,而是將連續(xù)變量轉(zhuǎn)化為有序多分類變量后納入模型。這是因為,在Logistic回歸中直接納入連續(xù)變量,那么對于該變量的OR值的意義為:該變量每升高一個單位,發(fā)生結(jié)局事件的風(fēng)險變化(比如年齡每增加1歲,患肺癌的風(fēng)險增加1.02倍)。這種解釋在臨床上大多數(shù)是沒有意義的。3、SPSS分析方法(1)數(shù)據(jù)錄入SPSS(2)選擇Analyze→Regression→BinaryLogistic(3)選項設(shè)置1)主
7、對話框設(shè)置:將因變量cancer送入Dependent框中,將納入模型的自變量sex,age,BMI和COPD變量Covariates中。本研究中,納入age變量僅僅是為了調(diào)整該變量帶來的混雜(不關(guān)心該變量的OR值),因此將age直接將改變量納入Logistic回歸模型。對于自變量篩選的方法(Method對話框),SPSS提供了7種選擇,使用各種方法的結(jié)果略有不同,讀者可相互印證。各種方法之間的差別在于變量篩選方法不同,其中Forward:LR法(基于最大似然估計的向前逐步回歸法)的結(jié)果相對可靠,但最終模型的選擇還需要獲得專業(yè)理論的支持。