資源描述:
《分析數(shù)據(jù)間的相關性》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、Excel數(shù)據(jù)統(tǒng)計與分析主講:張小蘭電話:13560022398Email:zhangxl5659@163.com第四章分析數(shù)據(jù)間的相關性世間萬物總是存在不同程度的聯(lián)系函數(shù)關系統(tǒng)計關系線性相關XY正線性相關負線性相關XY非線性相關4.2兩數(shù)值型數(shù)據(jù)間的相關性(1)圖形分析法散點圖是統(tǒng)計關系分析中最常用的圖形工具,它將數(shù)據(jù)以點的形式畫在直角平面上,它將一組數(shù)據(jù)作為縱軸,將另一組數(shù)據(jù)作為縱軸,事物對象的每個個體以點的形式出現(xiàn)。(1)若所有點落在一條直線上,說明數(shù)據(jù)間是線性相關,是函數(shù)關系,不是統(tǒng)計關系。(2)所有點雜亂無章,從形態(tài)
2、上看不出任何特征和規(guī)律,表明數(shù)據(jù)間不相關(3)圖形點大致呈某種曲線形態(tài),表明數(shù)據(jù)間存在非線性相關(4)所有點大致落在一條直線周圍,表明數(shù)據(jù)間有線性相關性。實踐1999年31個省市自治區(qū)個人購買商品住房住宅面積與商品住宅銷售額的數(shù)據(jù),現(xiàn)要求利用散點圖法分析個人購買商品住房住宅面積與商品住宅銷售額之間的相關性。(2)數(shù)值分析法圖形能夠直觀展現(xiàn)數(shù)據(jù)間的相關關系,但并不精確。簡單相關系數(shù)通過數(shù)字準確描述數(shù)據(jù)間線性相關的方向和強弱程度。簡單相關系數(shù)簡單相關系數(shù)取值范圍[-1,1]簡單相關系數(shù)>0,表示兩個數(shù)據(jù)正線性相關簡單相關系數(shù)<0,
3、表示兩個數(shù)據(jù)負線性相關簡單相關系數(shù)=0,表示兩個數(shù)據(jù)不存在線性相關簡單相關系數(shù)>0.8,表示兩個數(shù)據(jù)相關性很強簡單相關系數(shù)<0.3,表示兩個數(shù)據(jù)相關性較弱求簡單相關系數(shù)的方法:(1)簡單相關系數(shù)可通過函數(shù)Correl或Pearson實現(xiàn)(2)“數(shù)據(jù)分析”中相關系數(shù)命令實踐1999年31個省市自治區(qū)個人購買商品住房住宅面積與商品住宅銷售額的數(shù)據(jù),現(xiàn)要求函數(shù)和“數(shù)據(jù)分析”命令分析個人購買商品住房住宅面積與商品住宅銷售額之間的相關性。4.3兩品質(zhì)數(shù)據(jù)間的相關性從人事數(shù)據(jù)中分析性別跟職稱是否相關?(1)圖形分析法復式柱形圖是柱形圖的擴
4、展,主要用于對事物兩個或多個特征的分類對比。(2)數(shù)值分析法---列聯(lián)表在該圖基礎上進一步計算一些簡單的百分比。列聯(lián)表示例獲不獲得學分與性別是有關系的,男生獲得學分的可能更大一些列聯(lián)表示例獲不獲得公選課學分與性別是不相關的實踐給定的性別與受教育程度數(shù)據(jù)進行相關性分析,做出他們的三維簇狀柱形圖及列聯(lián)表。對人事數(shù)據(jù)中性別與職稱進行相關性分析,做出三維簇狀柱形圖及列聯(lián)表。4.4相關的可靠性檢驗總體與樣本常常存在這樣的情況,我們所觀察的只是部分或有限的個體,而需要判斷的總體對象范圍卻是大量的,甚至是無限的。比如說為了考察某公司生產(chǎn)的一
5、批電腦芯片的質(zhì)量,需要了解芯片使用壽命這一指標。我們關心的是這一整批芯片的質(zhì)量,但由于各種原因,只能抽取其中的一小部分進行測試。這時,這一整批芯片的質(zhì)量和被抽取出來的那一部分的質(zhì)量就構(gòu)成了“整體”和“部分”的關系了??煽啃匝芯康木褪欠治鰳颖緮?shù)據(jù)所體現(xiàn)的相關或不相關在總體數(shù)據(jù)間是否依然存在假設檢驗的基礎假定數(shù)據(jù)符合正態(tài)分布假設收集到無限多的數(shù)據(jù),這些數(shù)據(jù)可能看起來像下圖我們可將這些數(shù)據(jù)看成平滑的分布紅線758060657055Inchesxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
6、xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx正態(tài)曲線和概率了解了正態(tài)曲線的平均值和標準偏差有助于估計風險Probabilityofsamplevalue43210-1-2-3-440%30%20%10%0%Z-axis(scalein
7、unitsof‘s’)Numberofstandarddeviationsfromthemean95.45%68.27%99.73%在兩個值之間可以得到一個累積的概率值正態(tài)分布的應用43210-1-2-3-440%30%20%10%0%Probabilityofsamplevalue95.45%68.27%99.73%240255270285225210195Time(minutes)Z-axisX-axis如果我們貨物交付給顧客的平均時間是240分鐘,這一過程的標準偏差是15分鐘,那么在270分鐘后到貨的概率為多少?正態(tài)分布
8、的應用2中國成年男子身高均為168cm,標準差為5.5cm.試計算:1、身高小于160cm的概率。2、身高高于180cm的概率。3、身高介于160-180cm的概率。假設檢驗的基本原理顯著性水平顯著性水平α是當原假設正確卻被拒絕的概率通常人們?nèi)?.05或0.01這表明,當做出