資源描述:
《金融數(shù)據(jù)挖掘.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在PPT專區(qū)-天天文庫。
1、第一章:概論一、何為數(shù)據(jù)挖掘(datamining)現(xiàn)代信息社會(huì)的特征:信息(數(shù)據(jù))泛濫、知識(shí)缺乏,如何從海量數(shù)據(jù)(廣義的概念)中挖掘出決策有用信息?數(shù)據(jù)挖掘是結(jié)合現(xiàn)代數(shù)學(xué)、統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)庫管理、計(jì)算機(jī)圖形學(xué)、軟件工程等各領(lǐng)域的技術(shù)和知識(shí),1990年代在西方國家出現(xiàn)的一種高新技術(shù)——從海量數(shù)據(jù)中挖掘出決策有用信息的技術(shù)。1990年代末,在對(duì)100名美國著名科學(xué)家的問卷調(diào)查中,數(shù)據(jù)挖掘被列為21世紀(jì)對(duì)人類發(fā)展影響最大、最有前途的10大技術(shù)的第三位。我國對(duì)數(shù)據(jù)挖掘技術(shù)的重視(開發(fā)與應(yīng)用)1、863、963項(xiàng)目;2、國家及省重
2、點(diǎn)科學(xué)領(lǐng)域;3、國家統(tǒng)計(jì)局在全國組織數(shù)據(jù)挖掘培訓(xùn)(2000);4、企業(yè)特別是銀行對(duì)數(shù)據(jù)挖掘技術(shù)的重視;5、人民大學(xué)數(shù)據(jù)挖掘研究與應(yīng)用中心。海量數(shù)據(jù)——沙漠,隱含的知識(shí)——金子,數(shù)據(jù)挖掘——從沙漠中挖掘金子的技術(shù)。二、不同學(xué)科對(duì)數(shù)據(jù)挖掘技術(shù)的研究與開發(fā)1、理論研究——各種數(shù)據(jù)挖掘技術(shù)的理論基礎(chǔ)、理論依據(jù)研究,從數(shù)學(xué)、統(tǒng)計(jì)學(xué)、人工智能、計(jì)算機(jī)圖形學(xué)等不同領(lǐng)域;2、挖掘技術(shù)研究,從統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)、軟件工程等領(lǐng)域;3、數(shù)據(jù)管理策略研究,從數(shù)據(jù)庫管理技術(shù)等領(lǐng)域;4、數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究,其中數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用是
3、一個(gè)重要方面。三、幾種相對(duì)比較成熟的數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘是一門新興的、正在不斷發(fā)展中的技術(shù),近年來,幾類十分重要、且相對(duì)比較成熟的數(shù)據(jù)挖掘技術(shù)是:1、分類與預(yù)測(cè)2、特征化、比較與關(guān)聯(lián)規(guī)則挖掘3、聚類分析4、序列發(fā)現(xiàn)本課程主要內(nèi)容:幾類數(shù)據(jù)挖掘技術(shù)的基本原理、數(shù)據(jù)挖掘方法、及這些挖掘技術(shù)在金融領(lǐng)域的應(yīng)用。第二章:分類與預(yù)測(cè)一、分類與預(yù)測(cè)的概念1、分類已知離散的、有限的幾個(gè)類,判斷或預(yù)測(cè)樣本屬于那個(gè)類。*某人否具有某種疾病*上市公司是否會(huì)陷入財(cái)務(wù)困境、是否會(huì)被外資并購*借款人是否會(huì)違約*這個(gè)客戶是否為銀行的潛在優(yōu)質(zhì)客戶、是否會(huì)轉(zhuǎn)向其他銀行用y
4、表示類變量,y取離散的幾個(gè)值,分類就是判斷或預(yù)測(cè)樣本的y究竟取什么值2、預(yù)測(cè)預(yù)測(cè)是指對(duì)連續(xù)性變量的取值進(jìn)行預(yù)測(cè),如:*某個(gè)借款人的違約概率是多少*銀行資產(chǎn)組合明天在99%置信度下的最大損失(VaR)有多大*如果某開放式基金因面臨巨額贖回申請(qǐng)而不得不大量拋售某種證券,這種證券的價(jià)格會(huì)下跌多少分類——對(duì)離散型變量進(jìn)行預(yù)測(cè)預(yù)測(cè)——對(duì)連續(xù)型變量進(jìn)行預(yù)測(cè)二、分類案例教學(xué)——上市公司財(cái)務(wù)困境預(yù)測(cè)模型構(gòu)建1、要求:將因財(cái)務(wù)狀況異常而被特別處理的ST公司界定為財(cái)務(wù)困境公司、非ST公司界定為財(cái)務(wù)正常公司,利用上市公司的財(cái)務(wù)報(bào)表數(shù)據(jù),建立上市公司財(cái)務(wù)困境預(yù)測(cè)
5、模型(提前一年預(yù)測(cè),即用第t-2年的數(shù)據(jù)預(yù)測(cè)企業(yè)在第t年是否會(huì)陷入財(cái)務(wù)困境)。分類變量y的取值y=0如果公司為財(cái)務(wù)困境公司y=1如果公司為財(cái)務(wù)正常公司2、類似案例:*外資并購目標(biāo)公司預(yù)測(cè)*防信用卡詐騙預(yù)警系統(tǒng)*銀行客戶關(guān)系管理*稅務(wù)稽核3、數(shù)據(jù)來源:CSMAR數(shù)據(jù)庫1990-2004資產(chǎn)負(fù)債表、損益表,1990-1997財(cái)務(wù)狀況變動(dòng)表1998-2004現(xiàn)金流量表4、報(bào)表變動(dòng)情況:1994年合并會(huì)計(jì)報(bào)表1998年資產(chǎn)減值準(zhǔn)備5、研究所需數(shù)據(jù)①、預(yù)測(cè)變量選取——實(shí)踐經(jīng)驗(yàn)、其他文獻(xiàn)使用的預(yù)測(cè)變量、采用技術(shù)手段(統(tǒng)計(jì)技術(shù)、數(shù)據(jù)挖掘技術(shù))選取預(yù)測(cè)變
6、量、在一定理論指導(dǎo)下構(gòu)造新的預(yù)測(cè)變量;②、樣本數(shù)據(jù)的結(jié)構(gòu)形式③、采集樣本數(shù)據(jù)時(shí)應(yīng)注意的問題*盡量采用跨年度數(shù)據(jù)*需要?jiǎng)h除的數(shù)據(jù)*盡量不采用配對(duì)抽樣④、隨機(jī)構(gòu)造的訓(xùn)練樣本組與檢驗(yàn)樣本組(過度擬合現(xiàn)象)⑤、本案例的數(shù)據(jù)說明(sj0):*1995年底前上市的公司;*刪除其他原因被特別處理的公司;*數(shù)據(jù)跨期1996-2001,分別預(yù)測(cè)1998-2003;*刪除在預(yù)測(cè)年度已陷入財(cái)務(wù)困境的公司;*共有非ST公司數(shù)據(jù)1008個(gè),ST公司數(shù)據(jù)111個(gè);*采用的6個(gè)預(yù)測(cè)變量為(第一種方法):總負(fù)債/總資產(chǎn)、主營(yíng)業(yè)務(wù)收入/總資產(chǎn)、總利潤(rùn)/總資產(chǎn)、(貨幣資金+
7、短期投資凈額)/流動(dòng)資產(chǎn)、留存盈余/總資產(chǎn)、總資產(chǎn)的自然對(duì)數(shù)。⑥、隨機(jī)抽樣構(gòu)造訓(xùn)練樣本組、檢驗(yàn)樣本組的SAS方法:*將EXCEL數(shù)據(jù)庫轉(zhuǎn)為SAS數(shù)據(jù)庫;*SAS隨機(jī)數(shù)函數(shù)——uniform(seed),隨機(jī)種子數(shù)seed取奇數(shù),產(chǎn)生[0,1]區(qū)間上的一個(gè)隨機(jī)數(shù)*隨機(jī)建立訓(xùn)練樣本組、檢驗(yàn)樣本組的SAS程序#dataa;setsasuser.sj0;k=uniform(15);run;#對(duì)已進(jìn)行k排序的數(shù)據(jù)庫adatab;seta;m=int(_n_/2);run;(sj1,sj2)二、構(gòu)造分類預(yù)測(cè)模型的方法1、判別分析法①、判別分析方法的統(tǒng)
8、計(jì)學(xué)原理假設(shè)有兩個(gè)總體——財(cái)務(wù)困境公司與財(cái)務(wù)正常公司,每個(gè)總體都可以用一個(gè)六維隨機(jī)變量表示,不同的總體分布不同。預(yù)測(cè)上市公司是否會(huì)陷入財(cái)務(wù)困境,就是判斷這個(gè)公司所對(duì)應(yīng)的樣本屬于哪個(gè)總體。判別分