資源描述:
《金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘建構(gòu)信用卡評(píng)分模型之商業(yè)智慧流程鄭宇庭謝邦昌程兆慶臺(tái)灣政治大學(xué)資料採(cǎi)礦中心報(bào)告大綱研究目的分析工具建模流程結(jié)論與建議Q&A9/14/20212研究目的有效地篩選出償債能力不佳的個(gè)人信用卡客戶(hù),依此開(kāi)發(fā)出一套信用風(fēng)險(xiǎn)系統(tǒng),以幫助銀行做出正確的核卡決策。這個(gè)系統(tǒng)的開(kāi)發(fā)、維護(hù)、與更新的成本預(yù)期將比銀行現(xiàn)有系統(tǒng)的成本低。9/14/20213分析工具M(jìn)icrosoftSQLSever2005價(jià)格自動(dòng)化以及開(kāi)發(fā)延伸程度目前SPSS跟微軟之間是採(cǎi)取合作的態(tài)度9/14/20214建模流程:CRISP-DMDATAMINING執(zhí)行階段商業(yè)理解資料理解資料準(zhǔn)
2、備建模評(píng)估發(fā)佈資料源DATAMINING處理流程9/14/20215圖表來(lái)源:楊自強(qiáng)企業(yè)如何應(yīng)用商業(yè)智慧來(lái)提昇執(zhí)行力與競(jìng)爭(zhēng)力微軟商業(yè)智慧解決方案SSIS分析服務(wù)報(bào)表服務(wù)分析服務(wù)(DataMining)資料來(lái)源檢視表(DataSourceView)整合性服務(wù)(SSIS)商業(yè)理解資料理解資料準(zhǔn)備建模評(píng)估發(fā)佈資料源資料源9/14/20216圖表來(lái)源:楊自強(qiáng)企業(yè)如何應(yīng)用商業(yè)智慧來(lái)提昇執(zhí)行力與競(jìng)爭(zhēng)力資料採(cǎi)礦無(wú)處不在商業(yè)問(wèn)題Microsoft演算法預(yù)測(cè)類(lèi)別變數(shù),例如行銷(xiāo)回應(yīng)、顧客流失、違約預(yù)測(cè)(巴塞爾資本協(xié)定IRB)…決策樹(shù)貝氏機(jī)率分類(lèi)群集類(lèi)神經(jīng)網(wǎng)路羅吉斯迴歸預(yù)測(cè)連續(xù)變數(shù),例
3、如預(yù)測(cè)銷(xiāo)售量、預(yù)測(cè)客戶(hù)價(jià)值變動(dòng)、預(yù)測(cè)金融商品價(jià)格波動(dòng)...迴歸樹(shù)時(shí)間序列類(lèi)神經(jīng)網(wǎng)路預(yù)測(cè)序列,例如找出網(wǎng)站使用者的點(diǎn)選路徑模式、客戶(hù)繳款行為模式、商品購(gòu)物順序時(shí)序群集找出產(chǎn)品交叉銷(xiāo)售關(guān)聯(lián)性,又稱(chēng)為購(gòu)物籃分析關(guān)聯(lián)規(guī)則決策樹(shù)找出潛在相似性,例如市場(chǎng)區(qū)隔、偵測(cè)晶圓瑕疵分配、文件分類(lèi)、保險(xiǎn)浮濫理賠偵測(cè)、偽卡偵測(cè)群集時(shí)序群集9/14/20217商業(yè)理解(BusinessUnderstanding)釐清商業(yè)問(wèn)題目前呆帳率是多少?信用卡審核流程?信用卡評(píng)分模型=分類(lèi)模型9/14/20218資料理解(DataUnderstanding)資料來(lái)源某銀行2000.1.1~2002.6.
4、30的信用卡資料資料內(nèi)容申請(qǐng)資料檔繳款紀(jì)錄檔總共有1220個(gè)變數(shù),502,333筆原始資料違約戶(hù)定義繳款期間曾經(jīng)有逾期60天以上未繳之卡戶(hù)9/14/20219建模流程圖選擇2001.4~2001.6原始資料清除遺漏值、異常值資料轉(zhuǎn)換誤差抽樣訓(xùn)練組測(cè)試組建模評(píng)估評(píng)估9/14/202110資料準(zhǔn)備(DataPreparation)選擇合理的建模變數(shù)基本資料性別、教育程度、職業(yè)別……聯(lián)合徵信中心(JCIC)的資料被查詢(xún)總家數(shù)、延遲月數(shù)比率……與銀行往來(lái)的資料申請(qǐng)卡別類(lèi)型、有沒(méi)有使用扣款服務(wù)……9/14/202111資料準(zhǔn)備(DataPreparation)選擇合理的建模
5、時(shí)間時(shí)間間隔取為12個(gè)月至18個(gè)月清除遺漏值、異常值資料轉(zhuǎn)換連續(xù)型轉(zhuǎn)成離散型:被查詢(xún)總家數(shù)…合併變項(xiàng)太多之變數(shù):職業(yè)別…衍生新的變數(shù)9/14/202112類(lèi)型變數(shù)名稱(chēng)資料類(lèi)型個(gè)人資料教育別類(lèi)別型(2類(lèi))性別旗標(biāo)型行業(yè)別類(lèi)別型(3類(lèi))職稱(chēng)別類(lèi)別型(3類(lèi))工作年資類(lèi)別型(5類(lèi))緊急聯(lián)絡(luò)人與正卡關(guān)係類(lèi)別型(4類(lèi))與銀行往來(lái)紀(jì)錄是否申請(qǐng)結(jié)餘代償旗標(biāo)型扣款帳號(hào)旗標(biāo)型金融聯(lián)合徵信中心<過(guò)去六個(gè)月>延遲月數(shù)比率連續(xù)型<過(guò)去六個(gè)月>循還月數(shù)比率連續(xù)型近一年M2次數(shù)整數(shù)型<最近一個(gè)月>近期是否逾期旗標(biāo)型負(fù)債所得比連續(xù)型有效卡張數(shù)類(lèi)別型(3類(lèi))被查詢(xún)總家數(shù)類(lèi)別型(4類(lèi))9/14/20
6、2113建模(Modeling)誤差抽樣(Over-Sampling)將稀有事件透過(guò)抽樣的方式將其比重提高多的少抽(Reduce):正常戶(hù)抽取率0.1違約戶(hù)抽取率1將資料分成訓(xùn)練組與測(cè)試組避免過(guò)度學(xué)習(xí)(Over-fitting)建模方法選擇羅吉斯迴歸、決策樹(shù)、類(lèi)神經(jīng)網(wǎng)路9/14/202114DataMiningModelEvaluationDataMiningModelEvaluation分類(lèi)矩陣橫軸為預(yù)測(cè)結(jié)果,縱軸為實(shí)際結(jié)果增益圖橫軸為名單百分比,縱軸為累積佔(zhàn)全體之百分比收益圖根據(jù)成本以及銷(xiāo)售成功利潤(rùn),並計(jì)算出累積利潤(rùn)圖散佈圖針對(duì)連續(xù)變數(shù),可以利用此功能了解實(shí)際
7、值與預(yù)測(cè)值間之差異性以及預(yù)測(cè)之趨勢(shì)變動(dòng)情形9/14/202116選擇“vTargetMail(dbo)”勾選需要比較之模型DataMiningModelEvaluation說(shuō)明:在進(jìn)行模型效益評(píng)估前必須先選入資料表,並在模型中勾選要進(jìn)行評(píng)估比較之模型9/14/202117DataMiningModelEvaluation分類(lèi)矩陣藉由分類(lèi)矩陣進(jìn)一步比較,判別兩模型的預(yù)測(cè)能力,由決策樹(shù)模型發(fā)現(xiàn),預(yù)測(cè)正確的資料有7103+5857=12960;而群集分析模型的正確預(yù)測(cè)資料為5395+5308=10703,也可看出決策樹(shù)分類(lèi)結(jié)果較群集分析分類(lèi)結(jié)果好9/14/202118D
8、ataMi