資源描述:
《大數(shù)據(jù)應(yīng)用案例分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、大數(shù)據(jù)應(yīng)用案例分析目錄大數(shù)據(jù)概念1大數(shù)據(jù)處理辦法2大數(shù)據(jù)應(yīng)用案例31大數(shù)據(jù)概念大數(shù)據(jù)時代到來隨著智能手機的普及,網(wǎng)民參與互聯(lián)網(wǎng)產(chǎn)品和使用各種手機應(yīng)用的程度越來越深,用戶的行為、位置、甚至身體生理等每一點變化都成為了可被記錄和分析的數(shù)據(jù),數(shù)據(jù)量呈現(xiàn)爆炸式增長。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);據(jù)IDC研究機構(gòu)預(yù)測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1PB=2^50字節(jié)1EB=2^60字節(jié)1ZB=2^70字節(jié)GB在2011年,這個數(shù)字達到了1.8ZB。TBPBEBZB
2、01大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)(交易數(shù)據(jù)、交互數(shù)據(jù))+針對海量數(shù)據(jù)處理的解決方案海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù):源于Facebook、Twitter、微博、及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)
3、已經(jīng)催生出了設(shè)計用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。注:大數(shù)據(jù)不僅僅指的是數(shù)據(jù)量龐大,更為重要的是數(shù)據(jù)類型復(fù)雜想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。02大數(shù)據(jù)4V特征03結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,對數(shù)據(jù)的處理能力提出了更高要求實時獲取需要的信息比如:在客戶每次瀏覽頁面,每次下訂單過程中都會對用戶進行實時的推薦,決策已經(jīng)變得實時數(shù)據(jù)量巨大全球在2010年正式進入ZB時代,IDC預(yù)計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量沙里淘金
4、,價值密度低雖然數(shù)據(jù)量很大,但是價值密度較低,如何通過強大的機器算法更迅速地完成數(shù)據(jù)價值“提純”,是目前大數(shù)據(jù)亟待解決的難題大數(shù)據(jù)產(chǎn)品市場價值解決方案轉(zhuǎn)化1.海量(Volume)3.速度(Velocity)4.價值(value)2.多樣(Variety)2大數(shù)據(jù)處理辦法用戶畫像體系01每個企業(yè)都不可以避免的要對用戶進行畫像,用戶畫像的提出,根本上是源于企業(yè)對用戶認知的需求。產(chǎn)品經(jīng)理,需要了解用戶的特征,對產(chǎn)品進行功能的完善。內(nèi)容運營人員,需要篩選目標用戶,對內(nèi)容進行精準投放。活躍程度如何?年齡分布、區(qū)域分布是什么樣的?消費習(xí)慣和特征是什么?公司在哪?對什么感興趣?常去的商圈是哪兒?贏
5、利點在哪?職業(yè)是什么?常住地在哪兒?購買能力如何?基本特征?用戶畫像體系02駕駛行為數(shù)據(jù)將構(gòu)建精準的車險用戶畫像性別年齡國籍地理位置開車地點職業(yè)駕照類別開車頻率開車原因健庩狀況醫(yī)療條件感知力學(xué)習(xí)周期消費習(xí)慣民族特征教育水平婚姻狀態(tài)共用車輛情況生活方式使用藥物情況酒駕經(jīng)歷疲勞駕駛收入情況碰撞事故車輛維修犯罪記錄違章駕駛記錄駕駛時間通過對用戶不同維度的大數(shù)據(jù)分析,最終得出可執(zhí)行的業(yè)務(wù)決策。基本屬性行為習(xí)慣購買能力心理特征社交網(wǎng)絡(luò)興趌愛好基于機器學(xué)習(xí)的數(shù)據(jù)挖掘及分類基本識別流程03訓(xùn)練樣本數(shù)據(jù)源分詞特征選擇特征權(quán)重計算模型訓(xùn)練是模型評估是否通過待預(yù)測類別文本庫文本打上類別標簽否訓(xùn)練及測試過
6、程預(yù)測過程訓(xùn)練生成的模型訓(xùn)練生成的模型待預(yù)測類別文本原始庫數(shù)據(jù)預(yù)處理訓(xùn)練樣本庫數(shù)據(jù)預(yù)處理a.去除營銷博文干擾b.去除提及人的干擾(@)c.去除如門戶的作者的干擾大數(shù)據(jù)的處理04數(shù)據(jù)去重空值處理數(shù)據(jù)去噪格式統(tǒng)一對齊融合融合信息數(shù)據(jù)庫融合信息數(shù)據(jù)庫里程數(shù)據(jù)工況數(shù)據(jù)充電數(shù)據(jù)行駛軌跡車輛信息將空值更改為對應(yīng)的默認值使用UGC算法去除無用數(shù)據(jù)使用基于密度的聚類去除異常數(shù)據(jù)將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一數(shù)據(jù)表達形式去除異常的數(shù)據(jù)項匯聚多源異構(gòu)數(shù)據(jù)中的一致部分數(shù)據(jù)挖掘分類的過程3大數(shù)據(jù)應(yīng)用案例大數(shù)據(jù)是做好音樂平臺的一把利器01爽歪的麻雀,在電線桿上裸睡削個椰子皮,你卻TM給個梨撒米拉帶帶,哇嘎哇嘎哎喲想
7、聽的歌記不起名字???呀馬大叔與小舅舅四斤大豆,三根皮帶艾薇,莎啦啦,艾瑞噢喔噢喔,手剎多情咱切抱劉繼芬鋼鐵鍋,含眼淚喊修瓢鍋啊瑞寧瑞寧瑞寧瑞寧瑞寧產(chǎn)品競爭04*聽歌進入社交化時代,聽歌單、聽歌看評論成為流行聽歌行為;*個性化推薦已覆蓋多數(shù)聽歌用戶,越來越多用戶通過個性化推薦發(fā)現(xiàn)好音樂;*聽歌進入多元化時代,民謠、電音、二次元音樂崛起;*獨立音樂人迅速崛起,社交互動助推音樂人漲粉;*90后已成為音樂消費主力人群;*用戶付費意識明顯提高,付費會員數(shù)和數(shù)字專輯