資源描述:
《基于多重插補法的因果推斷研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號:0212單位代碼:10190研究生學(xué)號:201502027密級:公開碩士學(xué)位論文張冬陽2018年6月基于多重插補法的因果推斷研究CausalInferenceBasedonMultipleImputation碩士研究生:張冬陽導(dǎo)師:單娜副教授申請學(xué)位:理學(xué)碩士學(xué)科:統(tǒng)計學(xué)所在單位:數(shù)學(xué)與統(tǒng)計學(xué)院答辯日期:2018年6月授予學(xué)位單位:長春工業(yè)大學(xué)摘要摘要從古至今,人們在生產(chǎn)和生活中的很多活動都是基于因果關(guān)系的思維進(jìn)行的。不僅如此,探究復(fù)雜事物之間的因果關(guān)系也是流行病學(xué)、經(jīng)濟學(xué)、統(tǒng)計學(xué)和社會科學(xué)等
2、眾多領(lǐng)域研究的一個重要內(nèi)容。因此,因果關(guān)系的研究具有極其重要的理論意義及現(xiàn)實意義。因果推斷研究中,一個重要的因果模型是虛擬事實模型,也稱為潛在結(jié)果模型。在這個模型中,為了能夠清楚地定義因果關(guān)系,引入了一個重要變量,即潛在結(jié)果變量。但由于單一個體的觀測數(shù)據(jù)只可能得到一種結(jié)果,所以潛在結(jié)果變量的引入導(dǎo)致數(shù)據(jù)集中大量數(shù)據(jù)的缺失。本文主要是針對因果推斷中虛擬事實模型中的缺失數(shù)據(jù)填補進(jìn)行研究。運用多重插補的方法對虛擬事實模型中的缺失數(shù)據(jù)進(jìn)行填補,并進(jìn)一步進(jìn)行因果效應(yīng)的估計。本文我們首先介紹了因果虛擬事實模型的相
3、關(guān)知識,并給出了潛在結(jié)果變量缺失時,對缺失數(shù)據(jù)的插補方法—多重插補法。這種方法填補了虛擬事實模型中潛在結(jié)果變量的缺失信息,并根據(jù)填補后的完整數(shù)據(jù)集,進(jìn)行平均因果效應(yīng)的估計。此外,我們基于多重插補法的改進(jìn)算法—對數(shù)二項模型算法,對缺失的潛在結(jié)果變量進(jìn)行缺失值的插補,提高了平均因果效應(yīng)的估計精度。最后將多重插補法應(yīng)用到80084起交通事故的缺失數(shù)據(jù)中,研究司機是否系安全帶對司機是否受傷的因果推斷,得到了較好的因果效應(yīng)估計。關(guān)鍵詞:因果推斷;潛在結(jié)果;虛擬事實模型;缺失數(shù)據(jù);多重插補法IAbstractAb
4、stractInallages,manyactivitiesinproductionandlifearebasedoncausalinference.Exploringcausalrelationshipsbetweencomplexthingsisanimportantpartofresearchinmanyfieldssuchasepidemiology,economics,statisticsandsocialsciences.Therefore,thestudyofcausalinferenc
5、ehasextremelyimportanttheoreticalandpracticalsignificance.Intheresearchaboutcausalinference,animportantcausalmodelisthecounterfactualmodel,alsoknownaspotentialoutcomesmodel.However,sinceobservationsfromasingleindividualcanonlyyieldoneresult,theintroduct
6、ionofpotentialoutcomesleadstoinalotofmissinginthedataset.Thisarticlemainlyfocusesontheresearchofmissingdatainthecounterfactualmodelincausalinference.Themethodofmultipleimputationisusedtofillinthemissingdatainthecounterfactualmodelandfurtherestimatetheca
7、usaleffect.Inthispaper,wefirstintroducetherelevantknowledgeofthecounterfactualmodel,andgivemultipleimputationwhenthepotentialoutcomesaremissing.Thismethodfillsinmissinginformationofpotentialoutcomesincounterfactualmodelandestimatestheaveragecausaleffect
8、basedonthecompletedataset.Inaddition,wehaveimprovedthelog-binomialmodelbasedonmultipleimputationmethod.Interpolationofmissingvaluesformissingpotentialoutcomesimprovestheestimationaccuracyoftheaveragecausaleffect.Finally,themultip