資源描述:
《《逐步回歸分析》PPT課件》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、1第6章逐步回歸分析多元逐步回歸方法的基本思路:自動地從大量的可供選擇的變量中選取最重要的變量,據(jù)以建立回歸分析的預測或者解釋模型。變量選取的根據(jù)是自變量對因變量作用程度的大?。罕A糇饔贸潭却蟮淖兞?,剔除作用小的變量。是否選取一個變量,定量判據(jù)之一就是相關系數(shù)。假定有m個自變量,1個因變量(用y表示),則全部變量(包括自變量和因變量)之間的相關系數(shù)矩陣可以表作§6.1基本原理根據(jù)相關系數(shù)定義一個自變量的“貢獻”系數(shù)——按照貢獻系數(shù)的大小決定一個自變量的去留。式中Pj表示第j個自變量對因變量的貢獻系數(shù),Rjy表示第j個自變量與因變量的相關系數(shù),Rjj表示相關系
2、數(shù)矩陣對角線上第j行第j列元素(j=1,2,…,m)?!趌步計算的貢獻系數(shù)表示為在逐步回歸分析過程中,我們不僅要引入貢獻最大的自變量,同時要考慮剔除貢獻最小的因變量。因此,變量的存留與否又涉及到另一個統(tǒng)計判據(jù)——F檢驗。設定一個顯著性水平α,查F檢驗表,找到F檢驗的臨界值Fα。在第l步計算中,假如第v個自變量的貢獻系數(shù)最大,數(shù)值為根據(jù)F檢驗來判斷該自變量是否應該被引入模型。式中h為尚且沒有被引入模型的變量序號,v為選出的變量對應的原始變量序號(v=1,2,…,m)。計算變量引入的F值判斷公式如下式中n為樣品個數(shù),l為計算步驟數(shù),為第v個變量第l步的貢獻系
3、數(shù),Ryy為因變量的自相關系數(shù)。如果Fin>Fα,則在這個顯著性水平下,該變量可以被引入模型,否則不要引入?!诘趌步計算中,如果第v個自變量的貢獻系數(shù)為——則可以根據(jù)F檢驗來判斷該自變量——包括已經引入的變量——是否應該被剔除。計算變量剔除的F值判斷公式如下如果Fout≤Fα,則在這個顯著性水平下,該變量應該被剔除,否則就要保留。在整個逐步回歸計算過程中,變量的引入和剔除在兩端同時進行。像這樣循環(huán)往復地計算,直到所有該引入的變量都被引入,該剔除的變量均被剔除為止。6.2.1數(shù)據(jù)準備§6.2計算方法借助一個簡單的實例說明逐步回歸分析的方法。問題是山東省淄博
4、市旅游業(yè)的發(fā)展分析,我們想搞清楚哪些因素影響淄博市的旅游總收入(表6-2-1)。所能考慮的因素包括:國內游客數(shù)量、海外游客數(shù)量、第三產業(yè)的發(fā)展和人均GDP數(shù)量(m=4)。從1995年到2004年一共10個年份的數(shù)據(jù)(n=10)。這些因素都與旅游業(yè)總收入具有明確的關系。而且,作為自變量,它們彼此之間也有很強的關系。如果將這四個變量全部引入模型,就會導致多重共線性的問題。為了得到簡約、可靠的模型,需要借助逐步回歸分析技術。為了更為有效地說明問題,我們對表6-2-1的變量排列順序稍作調整(表6-2-2)利用表6-2-2的數(shù)據(jù),容易計算相關系數(shù),得到矩陣如下(表6-
5、2-3)。逐步回歸計算就是從這種相關系數(shù)矩陣出發(fā)的。將這個矩陣記為首先設定F統(tǒng)計量的臨界值。取顯著性水平α=0.05,我們有m=4個自變量,n=10個觀測值。不妨取回歸自由度為4、剩余自由度為n-m-1=10-4-1=5的臨界值為我們引入變量的F值下限,即取Fc(in)=5.192。另一方面,假定一個變量被淘汰,則有m’=3。我們取顯著性水平α=0.05、回歸自由度為3、剩余自由度為n-m’-1=10-3-1=6的F臨界值為剔除一個變量的上限,即取Fc(out)=4.757。這一步的計算可以分解為如下幾個步驟。6.2.2第一輪計算(1)計算自變量的貢獻系數(shù)(
6、2)找出最大和最小貢獻系數(shù)及其對應的變量序號顯然,等于0.98246最大,對應的變量序號v=1。因此,首先考慮引入的變量是國內游客數(shù)量x1;等于0.92574最小,對應的變量序號v=4。故這一步可以考慮將人均GDP即變量x4剔除。國內游客數(shù)量這個變量是否能被引入模型,還要進行一次F檢驗。對于我們的問題,n=10,現(xiàn)在計算第l=1步。(3)計算變量引入和剔除的F統(tǒng)計量根據(jù)這個數(shù)值遠遠大于我們設定的臨界值Fc(in)=5.192,因此變量x1可以被引入模型。接下來考慮排除貢獻系數(shù)最小的變量。但是否排除,要視Fout值而定。根據(jù)上述計算結果,0.92574最小,由
7、式下面公式這個數(shù)值高于剔除變量的F臨界值4.757,因此第一步不能剔除。作為對比,可以計算出所有變量的F變化值。例如,對于第二個變量“第三產業(yè)產值”,變量引入和剔除的F值分別為(4)相關系數(shù)矩陣變換,將化為假定第v個變量在第l步被引入,則相關系數(shù)矩陣的第v個元素稱為主元。矩陣變換是圍繞主元進行的。相關系數(shù)矩陣的變換公式如下式中j、k分別為相關系數(shù)矩陣的行列編號。根據(jù)這個公式,第一步應該改變非主元所在的行、列的元素(j≠v,k≠v),第二步改變主元所在的行的元素(j=v,k≠v),第三步改變主元所在的列的元素(j≠v,k=v),第四步改變主元本身(j=v,k=
8、v)?!紫茸儞Q非主元所在的行和列的元素。我們的主