資源描述:
《回歸分析線性回歸logistic回歸對數(shù)線性模型》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、回歸分析線性回歸Logistic回歸對數(shù)線性模型吳喜之回歸分析顧客對商品和服務(wù)的反映對于商家是至關(guān)重要的,但是僅僅有滿意顧客的比例是不夠的,商家希望了解什么是影響顧客觀點(diǎn)的因素以及這些因素是如何起作用的。一般來說,統(tǒng)計(jì)可以根據(jù)目前所擁有的信息(數(shù)據(jù))建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系(稱為模型)。假如用Y表示感興趣的變量,用X表示其他可能有關(guān)的變量(可能是若干變量組成的向量)。則所需要的是建立一個函數(shù)關(guān)系Y=f(X)。這里Y稱為因變量或響應(yīng)變量,而X稱為自變量或解釋變量或協(xié)變量。建立這種關(guān)系的過程就叫做回歸。2回歸分析一旦建立了回歸模
2、型可以對各種變量的關(guān)系有了進(jìn)一步的定量理解還可以利用該模型(函數(shù))通過自變量對因變量做預(yù)測。這里所說的預(yù)測,是用已知的自變量的值通過模型對未知的因變量值進(jìn)行估計(jì);它并不一定涉及時間先后的概念。3例1有50個從初中升到高中的學(xué)生.為了比較初三的成績是否和高中的成績相關(guān),得到了他們在初三和高一的各科平均成績(數(shù)據(jù):highschool.sav)從這張圖可以看出什么呢?4還有定性變量該數(shù)據(jù)中,除了初三和高一的成績之外,還有一個定性變量它是學(xué)生在高一時的家庭收入狀況;它有三個水平:低、中、高,分別在數(shù)據(jù)中用1、2、3表示。5還有定性變量下面是對三種收
3、入對高一成績和高一與初三成績差的盒形圖6例1:相關(guān)系數(shù)7SPSS的相關(guān)分析相關(guān)分析(hischool.sav)利用SPSS選項(xiàng):Analize-Correlate-Bivariate再把兩個有關(guān)的變量(這里為j3和s1)選入,選擇Pearson,Spearman和Kendall就可以得出這三個相關(guān)系數(shù)和有關(guān)的檢驗(yàn)結(jié)果了(零假設(shè)均為不相關(guān))。8定量變量的線性回歸分析對例1中的兩個變量的數(shù)據(jù)進(jìn)行線性回歸,就是要找到一條直線來最好地代表散點(diǎn)圖中的那些點(diǎn)。9檢驗(yàn)問題等對于系數(shù)b1=0的檢驗(yàn)對于擬合的F檢驗(yàn)R2(決定系數(shù))=SSR/SST,可能會由于獨(dú)
4、立變量增加而增加(有按自由度修正的決定系數(shù):adjustedR2),簡單回歸時R等于相關(guān)系數(shù)10回到例1:R2等11SPSS的回歸分析自變量和因變量都是定量變量時的線性回歸分析(hischool.sav)利用SPSS選項(xiàng):Analize-Regression-Linear再把有關(guān)的自變量選入Independent,把因變量選入Dependent,然后OK即可。如果自變量有多個(多元回歸模型),只要都選入就行。12多個自變量的回歸如何解釋擬合直線?什么是逐步回歸方法?例子:RISKFAC.sav不算序號和(192個)國家有21個變量包括地區(qū)(R
5、egion)、(在城鎮(zhèn)和鄉(xiāng)村)使用干凈水的%、生活污水處理的%、飲酒量(litre/yearperson)、(每萬人中)內(nèi)科醫(yī)生數(shù)目、護(hù)士和助產(chǎn)士數(shù)、衛(wèi)生工作者數(shù)、病床數(shù)、護(hù)士助產(chǎn)士和內(nèi)科醫(yī)生之比、衛(wèi)生開支占總開支的%、占政府開支的%、人均衛(wèi)生開支$、成人識字率、人均收入$、每千個出生中5歲前死亡人數(shù)、人口增長率%、(男女的)預(yù)期壽命(年)、每10萬生育的母親死亡數(shù)1415例子:RISKFAC.sav該數(shù)據(jù)有許多相關(guān)的變量和許多缺失值假定要用各種變量描述每千個出生中5歲前死亡人數(shù)(因變量)可以先做兩兩相關(guān)也可以做定量變量的兩兩散點(diǎn)圖等等或者用
6、逐步回歸淘汰變量目的在于摸清關(guān)系的底細(xì)16例子:RISKFAC.sav:相關(guān)17例子:RISKFAC.sav:逐步回歸選中女性預(yù)期壽命和農(nóng)村干凈水的%作為自變量(第二個自變量相對不那么顯著pvalue=0.019)模型:女性預(yù)期壽命模型:農(nóng)村干凈水的%18RISKFAC.sav:散點(diǎn)圖及自變量相關(guān)性Pearson相關(guān)19RISKFAC.sav:散點(diǎn)圖及自變量相關(guān)性非參數(shù)度量KendallSpearman20介紹三個檢查異常點(diǎn)的統(tǒng)計(jì)量殘差(Residual).(本例用SPSS中的一種),它描述了樣本點(diǎn)到回歸直線的遠(yuǎn)近程度。杠桿值(Levara
7、ge)。它描述距離數(shù)據(jù)總體的遠(yuǎn)近。高杠桿點(diǎn)對回歸的參數(shù)影響較大,但其殘差通常較小。Cook統(tǒng)計(jì)量。它結(jié)合了殘差和杠桿值,因此反映了殘差和杠桿二者的影響(較全面)21全模型(兩個自變量:女性預(yù)期壽命和農(nóng)村干凈水的%)RISKFAC.sav:全模型異常點(diǎn)診斷:殘差96(Lesotho)23(Botswana)153(SierraLeone)192(Zimbabwe)模型:女性預(yù)期壽命模型:農(nóng)村干凈水的%23RISKFAC.sav:全模型異常點(diǎn)診斷高杠桿點(diǎn)23(Botswana)140(Romania)192(Zimbabwe)模型:女性預(yù)期壽
8、命模型:農(nóng)村干凈水的%24RISKFAC.sav:全模型異常點(diǎn)診斷Cook距離23(Botswana)96(Lesotho)192(Zimbabwe)140(Ro