資源描述:
《沈志勇-大數(shù)據(jù)智能應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、從數(shù)據(jù)到智能——百度BDL大數(shù)據(jù)智能分析應(yīng)用實(shí)踐!沈志勇2014.10.17!提綱?大數(shù)據(jù)時(shí)代與百度大數(shù)據(jù)引擎?百度大數(shù)據(jù)智能分析?大數(shù)據(jù)智能應(yīng)用案例?總結(jié)大數(shù)據(jù)在百度存儲(chǔ)能力?>2000PB數(shù)據(jù)處理量?10-100PB/天網(wǎng)頁?千億~萬億索引?百億~千億更新量?十億~百億/天日志?100TB~1PB/天百度天生是一個(gè)大數(shù)據(jù)公司!大數(shù)據(jù)時(shí)代大數(shù)據(jù)行業(yè)坐標(biāo)擁有大數(shù)據(jù)合作、滲透、創(chuàng)新互聯(lián)網(wǎng)廠商多傳統(tǒng)企業(yè)GoogleAmazon銀行BATPrinceline電信Microsoft保險(xiǎn)QunarSalesforceSplunk跨界創(chuàng)新企業(yè)學(xué)習(xí)
2、SAP創(chuàng)新升級(jí)少OracleIBM傳統(tǒng)企業(yè)軟件廠商具備大數(shù)據(jù)能力弱強(qiáng)(ByBDG,Baidu)!百度大數(shù)據(jù)引擎百度大腦?大數(shù)據(jù)引擎:百度大數(shù)據(jù)能力–數(shù)據(jù)中心、數(shù)據(jù)倉庫、智能分析技術(shù)……?大腦:百度大數(shù)據(jù)智能分析技術(shù)–機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)科學(xué)(挖掘)……!大數(shù)據(jù)智能分析技術(shù)在百度大數(shù)據(jù)智能分析:從百度到行業(yè)?“傳統(tǒng)”互聯(lián)網(wǎng)技術(shù)的輸出–廣告、推薦、NLP技術(shù)……?基于大數(shù)據(jù)智能分析的行業(yè)解決方案行業(yè)數(shù)據(jù)+百度數(shù)據(jù)!復(fù)雜機(jī)器學(xué)習(xí)算法!行業(yè)價(jià)值!(可選)!大數(shù)據(jù)智能分析應(yīng)用案例?旅游:百度BDG旅游預(yù)測項(xiàng)目?體育:百度BDG世界杯預(yù)測項(xiàng)目
3、?運(yùn)維與運(yùn)營:智能運(yùn)維調(diào)研?金融:基于百度數(shù)據(jù)的期指交易調(diào)研百度旅游預(yù)測景點(diǎn)擁擠度預(yù)測城市旅游熱度預(yù)測旅游預(yù)測——人的經(jīng)驗(yàn)Theonlysourceofknowledgeisexperience.—AlbertEinstein!旅游預(yù)測——相關(guān)因素的“數(shù)據(jù)化”旅游預(yù)測——機(jī)器學(xué)習(xí)模型基于大規(guī)模機(jī)器學(xué)習(xí)的時(shí)間序列預(yù)測模型——狀態(tài)空間模型(SSG)1數(shù)據(jù)準(zhǔn)備!3信息收集!x5!重復(fù)!各種因素!434預(yù)測!y5!旅游人數(shù)!2模型參數(shù)訓(xùn)練!y=Cx+εε~N(0,R)ttttttx=Ax+δδ~N(0,Q)ttt?1ttt百度世界杯預(yù)測?單場
4、比賽預(yù)測:–對(duì)于每場比賽給出賽果預(yù)測–小組賽:勝負(fù)平的概率–淘汰賽:勝負(fù)的概率?世界杯冠軍預(yù)測:–每支隊(duì)伍最終奪冠的概率方法集?多源數(shù)據(jù)融合(賠率、歷史戰(zhàn)績等):–基于統(tǒng)計(jì)量···!–監(jiān)督學(xué)習(xí)(supervisedlearning)–群體智慧(crowdintelligence)–專家融合(learningwithexperts)θθ?復(fù)雜模型:–隱因子模型(攻防因子模型)!–層次貝葉斯模型λ!λ!–圖上的排序模型?ss攻防因子模型:“生成”勝負(fù)圖模型表達(dá)!?勝負(fù)狀態(tài):v=主勝、平、客勝對(duì)應(yīng)概率:(p,p,p)主平客?比賽得分:(s,
5、s)主客λ!λ!主客?假設(shè)得分滿足泊松分布s~Possion(λ)主主ss主!客!s~Possion(λ)客客?勝負(fù)平概率:v!p主=P(s主>s客)M!p=P(s=s)平主客p=P(s
6、汰賽(15場)正確率100%–優(yōu)于Google,Microsoft等的預(yù)測?冠軍預(yù)測結(jié)果:–NDCG@16:百度0.8854微軟0.7446–NDCG@8:百度0.8863微軟0.7622–NDCG@4:百度0.9048微軟0.7540–均高于微軟結(jié)果(谷歌未預(yù)測冠軍)智能運(yùn)維/運(yùn)營技術(shù)框架!異常檢測自動(dòng)診斷AnomalyDiagnosisdetection監(jiān)控自動(dòng)調(diào)整MonitoringAutoTuning預(yù)測Forecasting數(shù)據(jù)!時(shí)間序列數(shù)據(jù)(timeseriesdata)序貫數(shù)據(jù)(sequentialdata)異常檢測突變
7、檢測!異常模式檢測!1111221故障預(yù)測/預(yù)警預(yù)測24H!歷史狀態(tài)區(qū)間!24H!當(dāng)前時(shí)刻!預(yù)測目標(biāo):后天會(huì)不會(huì)發(fā)生某個(gè)故障?Y/N,二分類問題!預(yù)測結(jié)果故障名故障次數(shù)AUC1#變槳充電器反饋丟失620.91液壓泵無反饋550.87變槳安全鏈380.84網(wǎng)側(cè)IGBT過流_變流器230.842#變槳充電器反饋丟失!190.6141子站總線故障!160.54……!…結(jié)果直觀解讀1#變槳充電器反饋丟失!實(shí)際實(shí)際故故障非故障障風(fēng)預(yù)測誤報(bào)!險(xiǎn)1630分類閾值!故障評(píng)分!預(yù)測4302非故障time!漏報(bào)!智能運(yùn)維/運(yùn)營的大餅層
8、級(jí)現(xiàn)有領(lǐng)域監(jiān)控指標(biāo)商務(wù)層企業(yè)(部門)運(yùn)營管理財(cái)務(wù)指標(biāo):收入等;市場指標(biāo):(管理層)Companyoperationandmanagement份額等;多產(chǎn)品KPI;…Businessoperations產(chǎn)品層產(chǎn)品運(yùn)營表現(xiàn)指