資源描述:
《協(xié)方差與相關系數》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、協(xié)方差與相關系數對于二維隨機向量(X,Y)來說,數學期望E(X)、E(Y)只反映了X與Y各自的平均值,方差只反映了X與Y各自離開均值的偏離程度,它們對X與Y之間相互關系不提供任何信息.但二維隨機向量(X,Y)的概率密度p(x,y)或分布列pij全面地描述了(X,Y)的統(tǒng)計規(guī)律,也包含有X與Y之間關系的信息.我們希望有一個數字特征能夠在一定程度上反映這種聯(lián)系.問題的提出:二、相關系數的概念及性質一、協(xié)方差的概念及性質三、協(xié)方差的關系式定義:設二維隨機向量(X,Y)的數學期望(E(X),E(Y))存在,若E[
2、(X-E(X))(Y-E(Y))]存在,則稱它為隨機變量X與Y的協(xié)方差,記為Cov(X,Y),即Cov(X,Y)=E[(X-E(X))(Y-E(Y))]協(xié)方差有計算公式Cov(X,Y)=E(XY)-E(X)E(Y)任意兩個隨機變量X與Y的和的方差為D(X+Y)=D(X)+D(Y)+2Cov(X,Y)§1協(xié)方差協(xié)方差的性質1.2.a,b是常數3.4.定理:Cov(X,Y)=Cov(Y,X)證明Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E[(Y-E(Y))(X-E(X))]=Cov(Y,X)定
3、理:Cov(aX,bY)=abCov(X,Y),a,b是常數證明Cov(aX,bY)=E[(aX-E(aX))(bY-E(bY))]=E{[a(X-E(X))][b(Y-E(Y))]}=abE{[X-E(X)][Y-E(Y)]}=abCov(X,Y)定理:Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)證明Cov(X+Y,Z)=E{[(X+Y)-E(X+Y)][Z-E(Z)]=E{[(X-E(X))+(Y-E(Y))][Z-E(Z)]}=E{[X-E(X)][Z-E(Z)]+[Y-E(Y)][Z-
4、E(Z)]}=E{[X-E(X)][Z-E(Z)]}+E{[Y-E(Y)][Z-E(Z)]}=Cov(X,Z)+Cov(Y,Z)協(xié)方差的數值在一定程度上反映了X與Y相互間的聯(lián)系,但它受X與Y本身數值大小的影響.如令X*=kX,Y*=kY,這時X*與Y*間的相互聯(lián)系和X與Y的相互聯(lián)系應該是一樣的,但是Cov(X*,Y*)=k2Cov(X,Y)為了克服這一缺點,在計算X與Y的協(xié)方差之前,先對X與Y進行標準化:再來計算X*和Y*的協(xié)方差,這樣就引進了相關系數的概念.定義:設二維隨機變量(X,Y)的方差D(X)>
5、0,D(Y)>0,協(xié)方差Cov(X,Y)均存在,則稱為隨機變量X與Y的相關系數或標準協(xié)方差.§2相關系數引理:對于二維隨機向量(X,Y),若E(X2),E(Y2)存在,則有
6、E(XY)
7、2≤E(X2)E(Y2)證明:考慮實變量t的二次函數h(t)=E[(tX-Y)2]=t2E(X2)-2tE(XY)+E(Y2)因為對一切t,有(tX-Y)2≥0,所以h(t)≥0.從而二次方程h(t)=0或者沒有實根,或者只有重根,因而,由二次方程根的判別式知識得
8、E(XY)
9、2≤E(X2)E(Y2)§2.1相關系數的性質
10、性質1:隨機變量X和Y的相關系數滿足
11、ρXY
12、≤1.性質2:
13、ρXY
14、=1的充要條件是,存在常數a,b使得P{Y=a+bX}=1.性質3:若X與Y相互獨立,則ρXY=0.性質1:隨機變量X和Y的相關系數滿足
15、ρXY
16、≤1.證明令則從而
17、ρXY
18、≤1.性質2:
19、ρXY
20、=1的充要條件是,存在常數a,b使得P{Y=aX+b}=1證明令由ρXY2=[E(X*Y*)]2≤E(X*)E(Y*)=1知
21、ρXY
22、=1等價于[E(X*Y*)]2-E(X*)E(Y*)=0它又等價于h(t)=E[(tX*-Y*)2]=0有
23、重根t0.又因為E(t0X*-Y*)=t0E(X*)-E(Y*)=0所以D(t0X*-Y*)=0,由方差的性質知它等價于P{t0X*-Y*=0}=1,即P{Y=aX+b}=1其中a=t0σ(Y)/σ(X),b=E(Y)-t0E(X)σ(Y)/σ(X).性質3:若X與Y相互獨立,則ρXY=0.證明若X與Y相互獨立,則E(XY)=E(X)E(Y),又Cov(X,Y)=E(XY)-E(X)E(Y),所以§2.2相關系數的含義考慮以X的線性函數a+bX來近似表示Y.以均方誤差e=E{[Y-(a+bX)]2}=E(
24、Y2)+b2E(X2)+a2-2bE(XY)+2abE(X)-2aE(Y)來衡量以a+bX近似表達Y的好壞程度.e的值越小表示a+bX與Y的近似程度越好.為此令從而得解得相關系數只是隨機變量間線性關系強弱的一個度量.當
25、ρXY
26、=1時,說明X與Y間存在著線性關系(除去一個零概率事件以外).當
27、ρXY
28、<1時,這種線性相關程度隨著ρXY的減小而減弱.定義:(1)當ρXY=1時,稱X與Y正線性相關;(2)當ρXY=-1時,稱X與Y