資源描述:
《數(shù)據(jù)挖掘在電信業(yè)的應(yīng)用.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)挖掘技術(shù)在電信用戶分析與保持中的應(yīng)用北大2013公安班數(shù)據(jù)挖掘第13小組2013年11月北大2013公安班數(shù)據(jù)挖掘第13小組成員名單黃錫鋒:1301220570張 佶:1301220690趙 征:1301220706徐 良:1301220670周 ?。?301220713張 峰:1301220686■序言□用戶流失挖掘的主要方法□用戶流失挖掘中應(yīng)注意的問題□用戶流失挖掘過程□建議與結(jié)論用戶流失的數(shù)據(jù)挖掘電信運(yùn)營商之間競爭激烈兩有:市場占有率,用戶保有量ARPU:每用戶月平均收入提升電信運(yùn)營商之間競爭激烈運(yùn)營商的年
2、ARPU值A(chǔ)RPU值逐年下降,應(yīng)努力調(diào)整業(yè)務(wù)結(jié)構(gòu)以適應(yīng)形勢變化。電信運(yùn)營商之間競爭激烈運(yùn)營商年ARPU值市場占有率用戶保有量留住一個(gè)用戶所需要的成本是爭取一個(gè)新用戶成本的1/5□序言■用戶流失挖掘的主要方法□用戶流失挖掘中應(yīng)注意的問題□用戶流失挖掘過程□建議與結(jié)論用戶流失數(shù)據(jù)挖掘相關(guān)分析主要分析變量之間聯(lián)系的密切程度;回歸分析主要基于觀測數(shù)據(jù)與建立變量之間適當(dāng)?shù)囊蕾囮P(guān)系。相關(guān)分析與回歸分析均反映的是數(shù)據(jù)變量之間的有價(jià)值的關(guān)聯(lián)或相關(guān)聯(lián)系,因此兩者又可統(tǒng)稱為關(guān)聯(lián)分析。(一)相關(guān)分析和回歸分析時(shí)間序列分析與關(guān)聯(lián)分析相似,其
3、目的也是為了挖掘數(shù)據(jù)之間的內(nèi)在聯(lián)系,但不同之處在于時(shí)間序列分析側(cè)重于數(shù)據(jù)在時(shí)間先后上的因果關(guān)系,這點(diǎn)與關(guān)聯(lián)分析中的平行關(guān)系分析有所不同。(二)時(shí)間序列分析分類與預(yù)測用于提取描述重要數(shù)據(jù)類的模型,并運(yùn)用該模型判斷新的觀測值分類或者預(yù)測未來的數(shù)據(jù)趨勢。(三)分類與預(yù)測分析聚類分析就是將數(shù)據(jù)對象按照一定的特征組成多個(gè)類或者簇,在同一個(gè)簇的對象之間有較高的相似度,而不同的簇之間差異則要大很多。在過程上看,聚類分析一定程度上是分類與預(yù)測的逆過程。(四)聚類分析□序言□用戶流失挖掘的主要方法■用戶流失挖掘中應(yīng)注意的問題□用戶流失
4、挖掘過程□建議與結(jié)論用戶流失的數(shù)據(jù)挖掘從實(shí)際情況上看,國內(nèi)電信企業(yè)每月的用戶流失率一般在1%~3%左右,如果直接采用某種模型(比如決策樹、人工神經(jīng)網(wǎng)絡(luò)等)可能會(huì)因?yàn)閿?shù)據(jù)概率太小而導(dǎo)致模型的失效,因此我們需要加大流失用戶在總樣本中的比例,但是這種過度抽樣必須謹(jǐn)慎小心,要充分考慮它的負(fù)面效應(yīng)。(一)抽樣在實(shí)際運(yùn)用的過程中,可能存在用戶被判斷具備流失傾向,但當(dāng)數(shù)據(jù)返回到用戶服務(wù)前臺(tái)的時(shí)候用戶已經(jīng)流失的情況,其原因可能存在于不同業(yè)務(wù)部門之間協(xié)調(diào)工作的時(shí)延過長或者數(shù)據(jù)采集間隔太長等,這使得流失判定預(yù)警喪失了原有的意義。(二)模
5、型的有效性數(shù)據(jù)挖掘在用戶流失管理中的重要應(yīng)用不僅僅應(yīng)包括對用戶流失的提前預(yù)警,還應(yīng)包括用戶流失后的原因分析。按照不同的用戶信息維度,查找最容易流失的用戶群,同業(yè)務(wù)部門人員配合,輔以相關(guān)調(diào)查,力求發(fā)現(xiàn)用戶流失的癥結(jié)所在。(三)流失后分析□序言□用戶流失挖掘的主要方法□用戶流失挖掘中應(yīng)注意的問題■用戶流失挖掘過程□建議與結(jié)論用戶流失的數(shù)據(jù)挖掘28%的用戶是重入網(wǎng)或反復(fù)入網(wǎng)引起的;流失用戶的91.6%是在半年內(nèi)流失(低網(wǎng)齡用戶)。用戶流失類型(一)重入網(wǎng)、反復(fù)入網(wǎng)用戶挖掘NN+1N-6N-4N-5N-2N-3N-1新入網(wǎng)激
6、活月新入網(wǎng)激活后第1月新入網(wǎng)激活月前半年的存量用戶歷史IMEI庫或身份證庫N月在網(wǎng)用戶,區(qū)分新增和存量用戶判斷重入網(wǎng)用戶判斷新入網(wǎng)用戶的有效IMEI或身份證號(hào)碼N月新入網(wǎng)用戶中的重入網(wǎng)和反復(fù)重入網(wǎng)用戶名單剔除無效IMEI或身份證號(hào)碼生成、維護(hù)歷史有效IMEI庫或身份證號(hào)庫識(shí)別規(guī)則:通過對新入網(wǎng)用戶使用手機(jī)的IMEI號(hào)(或身份證號(hào)碼)與存量用戶的IMEI號(hào)歷史庫(或身份證號(hào)碼歷史庫)進(jìn)行分析識(shí)別出重入網(wǎng)和反復(fù)重入網(wǎng)用戶。重入網(wǎng)新用戶IMEI或身份證號(hào)與歷史IMEI或身份證號(hào)碼能夠匹配(6個(gè)月以內(nèi))。反復(fù)重入網(wǎng)重入網(wǎng)用戶
7、在6個(gè)月以內(nèi)重入網(wǎng)2次及2次以上的用戶。(一)重入網(wǎng)、反復(fù)入網(wǎng)用戶挖掘識(shí)別過程為了提高分析結(jié)果的準(zhǔn)確率,每月定期對上月新入網(wǎng)的用戶(上月入網(wǎng)并激活的用戶)進(jìn)行分析。分析示意如下:用戶在N月入網(wǎng)并激活(有話單產(chǎn)生),則在N+1月(計(jì)算月)對N月入網(wǎng)并激活的所有用戶進(jìn)行重入網(wǎng)分析。產(chǎn)品/價(jià)格促銷/宣傳不同品牌及資費(fèi)存在內(nèi)部競爭,沒有考慮體系間的平衡問題;預(yù)存費(fèi)用低,用戶入網(wǎng)門檻不高,使其可以輕易棄卡。新入網(wǎng)促銷活動(dòng)優(yōu)惠力度過大;品牌及資費(fèi)資費(fèi)套餐互轉(zhuǎn)門檻過高,停機(jī)保號(hào)、套餐互轉(zhuǎn)等宣傳不足。追求經(jīng)濟(jì)收益,受入網(wǎng)優(yōu)惠的吸引;
8、換取吉祥號(hào)碼;欠費(fèi)停機(jī)后選擇重入網(wǎng)。競爭對手以低資費(fèi)、大力度的優(yōu)惠活動(dòng)吸引用戶,但整體質(zhì)量未能讓用戶滿意,從而使用戶在短暫離(移動(dòng))網(wǎng)后重新入網(wǎng)內(nèi)部原因外部原因用戶原因渠道/服務(wù)渠道迫于指標(biāo)壓力或利益驅(qū)動(dòng),自身養(yǎng)卡或誘導(dǎo)用戶換卡;補(bǔ)卡成本高且手續(xù)復(fù)雜。(一)重入網(wǎng)、反復(fù)入網(wǎng)用戶為了保證數(shù)據(jù)的完整性和可用性1、數(shù)據(jù)準(zhǔn)備(二)低網(wǎng)齡用戶挖掘數(shù)據(jù)提取