資源描述:
《七種回歸分析》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、象形大數(shù)據(jù)http://www.ethinkbi.com什么是回歸分析?回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于預測分析,時間序列模型以及發(fā)現(xiàn)變量之間的因果關系。例如,司機的魯莽駕駛與道路交通事故數(shù)量之間的關系,最好的研究方法就是回歸。回歸分析是建模和分析數(shù)據(jù)的重要工具。在這里,我們使用曲線/線來擬合這些數(shù)據(jù)點,在這種方式下,從曲線或線到數(shù)據(jù)點的距離差異最小。我會在接下來的部分詳細解釋這一點。我們?yōu)槭裁词褂没貧w分析?如上所述,回歸分析估計了兩個或多個變量之間的關系。下面,讓我們舉一個簡單的例子來
2、理解它:比如說,在當前的經濟條件下,你要估計一家公司的銷售額增長情況?,F(xiàn)在,你有公司最新的數(shù)據(jù),這些數(shù)據(jù)顯示出銷售額增長大約是經濟增長的2.5倍。那么使用回歸分析,我們就可以根據(jù)當前和過去的信息來預測未來公司的銷售情況。象形大數(shù)據(jù)http://www.ethinkbi.com使用回歸分析的好處良多。具體如下:它表明自變量和因變量之間的顯著關系;它表明多個自變量對一個因變量的影響強度?;貧w分析也允許我們去比較那些衡量不同尺度的變量之間的相互影響,如價格變動與促銷活動數(shù)量之間聯(lián)系。這些有利于幫助市場研究人員,數(shù)據(jù)分析人員以及數(shù)據(jù)科學家排除并估計出一組最佳的變量
3、,用來構建預測模型。我們有多少種回歸技術?有各種各樣的回歸技術用于預測。這些技術主要有三個度量(自變量的個數(shù),因變量的類型以及回歸線的形狀)。我們將在下面的部分詳細討論它們。對于那些有創(chuàng)意的人,如果你覺得有必要使用上面這些參數(shù)的一個組合,你甚至可以創(chuàng)造出一個沒有被使用過的回歸模型。但在你開始之前,先了解如下最常用的回歸方法:1.LinearRegression線性回歸它是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續(xù)的,自變量可以是連續(xù)的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的擬合直線
4、(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關系。用一個方程式來表示它,即Y=a+b*X+e,其中a表示截距,b表示直線的斜率,e是誤差項。這個方程可以根據(jù)給定的預測變量(s)來預測目標變量的值。象形大數(shù)據(jù)http://www.ethinkbi.com一元線性回歸和多元線性回歸的區(qū)別在于,多元線性回歸有(>1)個自變量,而一元線性回歸通常只有1個自變量?,F(xiàn)在的問題是“我們如何得到一個最佳的擬合線呢?”。如何獲得最佳擬合線(a和b的值)?這個問題可以使用最小二乘法輕松地完成。最小二乘法也是用于擬合回歸線最常用的方法。對于觀測數(shù)據(jù),它通過
5、最小化每個數(shù)據(jù)點到線的垂直偏差平方和來計算最佳擬合線。因為在相加時,偏差先平方,所以正值和負值沒有抵消。象形大數(shù)據(jù)http://www.ethinkbi.com我們可以使用R-square指標來評估模型性能。想了解這些指標的詳細信息,可以閱讀:模型性能指標Part1,Part2.要點:·自變量與因變量之間必須有線性關系多元回歸存在多重共線性,自相關性和異方差性?!ぁは笮未髷?shù)據(jù)http://www.ethinkbi.com線性回歸對異常值非常敏感。它會嚴重影響回歸線,最終影響預測值。多重共線性會增加系數(shù)估計值的方差,使得在模型輕微變化下,估計非常敏感。結果就
6、是系數(shù)估計值不穩(wěn)定在多個自變量的情況下,我們可以使用向前選擇法,向后剔除法和逐步篩選法來選擇最重要的自變量?!?.LogisticRegression邏輯回歸邏輯回歸是用來計算“事件=Success”和“事件=Failure”的概率。當因變量的類型屬于二元(1/0,真/假,是/否)變量時,我們就應該使用邏輯回歸。這里,Y的值從0到1,它可以用下方程表示。odds=?p/?(1-p)?=?probability?of?event?occurrence?/?probability?of?not?event?occurrenceln(odds)?=?ln(p/(
7、1-p))logit(p)?=?ln(p/(1-p))?=?b0+b1X1+b2X2+b3X3....+bkXk上述式子中,p表述具有某個特征的概率。你應該會問這樣一個問題:“我們?yōu)槭裁匆诠街惺褂脤?shù)log呢?”。因為在這里我們使用的是的二項分布(因變量),我們需要選擇一個對于這個分布最佳的連結函數(shù)。它就是Logit函數(shù)。在上述方程中,通過觀測樣本的極大似然估計值來選擇參數(shù),而不是最小化平方和誤差(如在普通回歸使用的)。象形大數(shù)據(jù)http://www.ethinkbi.com要點:·它廣泛的用于分類問題。邏輯回歸不要求自變量和因變量是線性關系。它可以處
8、理各種類型的關系,因為它對預測的相對風險指數(shù)OR使用了一個非線性的