資源描述:
《數(shù)據(jù)挖掘概念與技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)挖掘概念與技術(shù)經(jīng)濟與工商管理學(xué)院鄧克文二零零九年九月第一課 分類一、數(shù)據(jù)挖掘及知識的定義1、數(shù)據(jù)挖掘定義:從大量數(shù)據(jù)中提取或“挖掘”知識;2、數(shù)據(jù)挖掘技術(shù):分類、預(yù)測、關(guān)聯(lián)和聚類等;3、數(shù)據(jù)挖掘過程:數(shù)據(jù)的清理、集成、選擇、變換、挖掘、模型評估、知識表示;4、知識定義:知識就是“壓縮”-濃縮就是精華!1)OccamRazor:因不宜超出果之需!2)信息論:熵3)MDL準(zhǔn)則:minimumdescriptionlength第一課 分類二、神經(jīng)網(wǎng)絡(luò)知識預(yù)備1、單層神經(jīng)網(wǎng)絡(luò);2、多層神經(jīng)網(wǎng)絡(luò)。第一課 分類三、SPSS軟件
2、及Logistic回歸知識預(yù)備1、回歸方法分類多個因變量(y1,y2,…yk)路徑分析結(jié)構(gòu)方程模型分析一個因變量y連續(xù)型因變量(y)---線性回歸分析分類型因變量(y)---Logistic回歸分析時間序列因變量(t)---時間序列分析生存時間因變量(t)---生存風(fēng)險回歸分析第一課 分類三、SPSS軟件及Logistic回歸知識預(yù)備2、回歸方法適用前提1)大樣本,樣本量為自變量個數(shù)的20倍左右;2)因變量或其數(shù)學(xué)變換與自變量有線性關(guān)系;3)擾動項(誤差項)符合正態(tài)分布;4)自變量間不存在諸如多重共線性等關(guān)系;5)誤差項
3、方差不變;等等。。。。。。。。第一課 分類三、SPSS軟件及Logistic回歸知識預(yù)備3、Logistic回歸方法介紹1)Logit變換Logit變換是Logistic回歸模型的基礎(chǔ)?,F(xiàn)實中常要研究某一事件A發(fā)生的概率P及P值的大小與某些影響因此之間的關(guān)系,但由于P對X的變化在P=0或P=1的附近不是很敏感的,或說是緩慢的,比如像可靠系統(tǒng),可靠度P已經(jīng)是0.998了,即使再改善條件和系統(tǒng)結(jié)構(gòu),它的可靠度增長也只能是在小數(shù)點后面的第三位或第四位之后,于是自然希望尋找一個P的函數(shù)形式θ(P),使它在P=0或P=1附近變化幅
4、度較大,且最好函數(shù)形式簡單,根據(jù)數(shù)學(xué)上導(dǎo)數(shù)的意義,提出用 來反映θ(p)是在P附近的變化是很適合的,同時希望P=0或P=1時, 有較大的值,因此取 ?。健 。矗旱谝徽n 分類三、SPSS軟件及Logistic回歸知識預(yù)備3、Logistic回歸方法介紹2)Logistic回歸設(shè)因變量是一個二分類變量,其取值為=1和=0。影響取值的個自變量分別為,則Logistic變換如下式表示:第一課 分類四、神經(jīng)網(wǎng)絡(luò)與Logistic回歸優(yōu)缺點對比1、神經(jīng)網(wǎng)絡(luò)優(yōu)缺點1)優(yōu)點:數(shù)據(jù)類型無要求,高度智能,強“魯棒”性,可進行非
5、 線性擬合,能容忍缺失值,異常值的出現(xiàn)等;2)缺點:“黑箱”過程導(dǎo)致知識結(jié)果難于解釋。2、Logistic回歸方法優(yōu)缺點1)優(yōu)點:線性回歸方程的知識結(jié)果使得所獲知識易于解釋;2)缺點:數(shù)據(jù)類型要求高,回歸方法成立前提多,只適用于線性擬合,缺失值,異常值會導(dǎo)致結(jié)果精確度大為下降。3、二者區(qū)別:硬計算與軟計算,知識表達方式不同第二課 預(yù)測一、相關(guān)概念1、神經(jīng)網(wǎng)絡(luò)的“過擬合”現(xiàn)象1)“過擬合”指的是神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集進行訓(xùn)練的過程中,無法識別數(shù)據(jù)中的“噪音”,并且把“噪音”的影響毫無保留的存貯于網(wǎng)絡(luò)參數(shù)(權(quán)重、偏置)中?!斑^擬
6、合”會導(dǎo)致神經(jīng)網(wǎng)絡(luò)對測試集進行分類、預(yù)測時,產(chǎn)生不必要的偏差。2)解決“過似合”現(xiàn)象辦法之一為N-fold交差驗證。2、MSE、NMSE等概念的定義1)MSE:均方誤差(注:與均方差的區(qū)別),其定義為誤差平方和除以它的自由度。第二課 預(yù)測一、相關(guān)概念2)NMSE定義:注:此處的方差 為樣本總體方差。NMSE的物理意義為標(biāo)準(zhǔn)化的MSE。第二課 預(yù)測二、預(yù)測實驗1、實驗?zāi)康模?)理解分類與預(yù)測區(qū)別2)熟練使用神經(jīng)網(wǎng)絡(luò)軟件NeuroSolutions解決預(yù)測問題。3)學(xué)會運用靈敏度分析,對屬性進行靈敏度測量。4)學(xué)會通過多次
7、訓(xùn)練模型,避免模型停止在局部最優(yōu)。2、實驗原理1)神經(jīng)網(wǎng)絡(luò)方法原理2)多元線性統(tǒng)計方法原理(注意什么是線性,其內(nèi)涵是什么?)第三課 聚類分析一、聚類分析定義、特征、應(yīng)用及評估1、定義:將物理或抽象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。1)聚類的方法類型(1)劃分方法:K-平均和K-中心算法;(2)層次方法:系統(tǒng)聚類;(3)基于密度方法:種類較多,對發(fā)現(xiàn)數(shù)據(jù)“噪音”有優(yōu)勢;(4)基于網(wǎng)格方法:小波聚類為典型,效率高,復(fù)雜度低;(5)基于模型方法:統(tǒng)計學(xué)中的分類樹方法-利用信息熵、貝葉斯統(tǒng)計原理為分類原則、
8、競爭學(xué)習(xí)與自組織特征圖。第三課 聚類分析一、聚類分析定義、特征、應(yīng)用及評估2、聚類與分類的區(qū)別1)聚類所要劃分的類未知,而分類要劃分的類已知;2)聚類不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實例,因此它是觀察式的學(xué)習(xí),而不是示例學(xué)習(xí);3)聚類的有監(jiān)督與分類的無監(jiān)督的區(qū)別。3、聚類分析的應(yīng)用:是一種重要的數(shù)據(jù)挖掘方法,廣泛應(yīng)