資源描述:
《比估計與回歸估計》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、前面討論的簡單隨機(jī)抽樣和分層抽樣,我們所關(guān)心的參數(shù)都是單指標(biāo)的,給出的估計量也是線性形式。這一章我們將要討論比較復(fù)雜的情況,我們關(guān)心的參數(shù)不再是單指標(biāo)的而是兩個或兩個以上的指標(biāo)。此時,遇到的統(tǒng)計量不再是線性形式,往往呈現(xiàn)出非線性形式,比如兩個變量之比,或呈現(xiàn)變量之間的回歸關(guān)系。第五章比估計與回歸估計所謂回歸關(guān)系就是變量之間的關(guān)系不是確定的,是帶有隨機(jī)影響的。比如身高和體重的關(guān)系,身高增加時,一般來說,體重也會增加,但又不能說一定如此。要確定身高和體§1概述一、問題的提出重的關(guān)系,一般用回歸的方法。這類問題首先是由英國統(tǒng)計學(xué)家高爾頓研究兒子的身高與
2、父親身高關(guān)系時提出的,他發(fā)現(xiàn)兒子的身高有回到家族平均身高的趨勢,因而把所得關(guān)系式稱為回歸方程,于是回歸的名詞就沿用下來了。比估計與比例估計輔助變量:用來幫助主要指標(biāo)估計的其他指標(biāo)。二、比估計與回歸估計的作用與使用條件(一)作用:提高估計的精度(二)使用條件1.主要指標(biāo)與輔助變量之間有良好的線性相關(guān)關(guān)系。2.輔助變量的總體總量或均值是已知的?!?比估計設(shè)有一個二元變量的總體:有4個參數(shù)是我們所熟悉的:————指標(biāo)的平均數(shù)——指標(biāo)的方差如果簡單隨機(jī)樣本為,則及的估計為:在研究比估計之前,再引進(jìn)一個新的參數(shù)——變量之間的協(xié)方差:(5.1)之間的相關(guān)系數(shù)
3、定義為:(5.2)(5.3)(5.4)在討論比估計之前,先考察總體的兩個平均數(shù)之比,即由于分別是的無偏估計,的估計自然定義為假如或已知,總體平均數(shù)與總體總和的比估計量定義為:(5.5)(5.6)通常的比估計是指(5.5)式與(5.6)式,而則稱為比值的估計。由(5.5)式與(5.6)式可知,與的習(xí)性主要依賴于估計量,因此在不少場合,我們常用來說明。盡管分別是的無偏估計,由于的非線性形式,因此關(guān)于是有偏的,從而關(guān)于也是有偏的。一個合理的估計量,應(yīng)該隨著樣本容量n的增加,估計量的期望與參數(shù)之差應(yīng)該越來越小并漸漸趨于零,即“漸近無偏”比估計是否漸近無偏
4、呢?利用Taylor展開式,有將比估計表示為:(5.7)當(dāng)n相當(dāng)大時,與相當(dāng)接近,而是常數(shù),又是的無偏估計,因此,實質(zhì)上,所以。(5.7)式的好處不單單告訴我們這一事實,而且告訴了我們,當(dāng)n相當(dāng)大時,,表明可以表示成的平均數(shù),因此的分布可近似正態(tài)分布因此,可利用近似標(biāo)準(zhǔn)正態(tài)分布獲得的置信區(qū)間而(5.8)另外(5.9)(5.10)公式(5.8)、(5.9)、(5.10)為我們提供了的估計量的形式。具體計算時,只要將分別換為即可。我們將由此得到的估計量分別記為:那么,的置信水平為的置信區(qū)間分別為:(,)(,)(5.11)下面說明比估計的優(yōu)點。主要針對
5、與來說明,因為它們僅相差一個常數(shù)因子,因此,只需討論其中一個就可以。當(dāng)n充分大時,而欲使,僅需或即(5.12)(,)(5.12)表明,如果變量X與Y正相關(guān),且相關(guān)程度非常密切的話,那么比估計的精度高于簡單隨機(jī)抽樣的精度。如果相關(guān)程度不那么密切(),此時已知的X信息并沒有較多地提供Y的信息,借助X來推斷也許會“幫倒忙”假如X與Y是負(fù)相關(guān),則更不能采用比估計方法,此時應(yīng)采用所謂乘積估計,即:當(dāng)n充分大時,且滿足:(5.14)(5.13)成立例5.1某縣小麥種植面積為218756畝,分布在N=576個村,為估計全縣產(chǎn)量,隨機(jī)無放回地抽取n=24個村,所
6、得數(shù)據(jù)如下123456789101112131415161718192021222324112.0129.1208.2158.5110.2123.3157.7154.298.7112.7125.560.3302361608444298349416428258347351158105.780.5163.098.7137.8141.2152.5142.5136.7153.293.0179.8308217492280378386428390376432261483每個村有兩個指標(biāo):面積和產(chǎn)量,即:經(jīng)計算可得:所以該縣平均畝產(chǎn)小麥估計為:采用比估計可得和
7、分別為:僅利用數(shù)據(jù)估計該縣小麥總產(chǎn)量與估計量方差分別為:顯然,的方差遠(yuǎn)遠(yuǎn)小于的方差。理由很清楚!小麥畝產(chǎn)量與土地?fù)碛辛砍尸F(xiàn)正相關(guān),且相關(guān)程度相當(dāng)密切,因此,在抽樣調(diào)查中對每個村了解有關(guān)產(chǎn)量和土地畝數(shù),利用已知該縣土地的固有已知數(shù),能比較精確地推斷總產(chǎn)量。事實上在實際操作中人們正是這樣去做的!現(xiàn)在來求總產(chǎn)量的95%的置信區(qū)間,首先置信區(qū)間為:(,)§2分層抽樣中的比估計1、分別比估計設(shè)總體分為k層,第h層的樣本均值記為,在該層中與的比估計記為,又記和為第h層中指標(biāo)的平均數(shù)與總和,與分別為該層中的方差和協(xié)方差,若換為,換為,則顯然表示該層樣本的方差和
8、協(xié)方差。我們可以得到有關(guān)總體和的分別比估計為:分層抽樣中的比估計有兩種:一是分層之后,先在各層獲得比估計,然后按層權(quán)平均得到總體參數(shù)估計