資源描述:
《數(shù)據(jù)競(jìng)賽思路分享:機(jī)場(chǎng)客流量的時(shí)空分布預(yù)測(cè)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、數(shù)據(jù)競(jìng)賽思路分享:機(jī)場(chǎng)客流量的時(shí)空分布預(yù)測(cè)1.問(wèn)題描述機(jī)場(chǎng)擁有巨大的旅客吞吐量,與巨大的人員流動(dòng)相對(duì)應(yīng)的則是巨大的服務(wù)壓力。安防、安檢、突發(fā)事件應(yīng)急、值機(jī)、行李追蹤等機(jī)場(chǎng)服務(wù)都希望能夠預(yù)測(cè)未來(lái)的旅客吞吐量,并據(jù)此提前調(diào)配人力物力,更好的為旅客服務(wù)。本次大賽以廣州白云機(jī)場(chǎng)真實(shí)的客流數(shù)據(jù)為基礎(chǔ),每天數(shù)萬(wàn)離港旅客在機(jī)場(chǎng)留下百萬(wàn)級(jí)的數(shù)據(jù)記錄。希望參賽隊(duì)伍通過(guò)數(shù)據(jù)算法來(lái)構(gòu)建客流量預(yù)測(cè)模型。2.數(shù)據(jù)概覽提供的數(shù)據(jù):3.1初賽數(shù)據(jù)描述初賽提供了2016-10-09至2016-09-25的數(shù)據(jù)3.2初賽問(wèn)題描述選手需要預(yù)測(cè)未來(lái)三小時(shí)(9月25日15:00:00到18:00)的時(shí)間
2、窗口里,機(jī)場(chǎng)內(nèi)每個(gè)WIFIAP點(diǎn)每10分鐘內(nèi)的平均設(shè)備連接數(shù)量3.3初賽解決方案簡(jiǎn)要概括:均值加趨勢(shì)數(shù)據(jù)預(yù)處理:提供的表格中時(shí)間數(shù)據(jù)都是精確到秒,而所提交的結(jié)果要求是每10分鐘的平均情況,所以我們首先需要將數(shù)據(jù)按照每十分鐘的間隔匯總起來(lái)(詳細(xì)代碼見(jiàn)Github)此處提供兩種方案:以airport_gz_wifi_ap表為例截取time_stamp的部分字符串,然后按照截取的time_stamp和wifi_ap_tag進(jìn)行aggregatet=t0[:15]#例如將t0=2016-09-10-18-55-04截取為t=2016-09-10-18-5將數(shù)據(jù)按照時(shí)間排序
3、,然后抽出每十分鐘的數(shù)據(jù)進(jìn)行處理后整合,這個(gè)方式可能會(huì)比較麻煩,但是這個(gè)方式有他的優(yōu)勢(shì),我們只需調(diào)整一個(gè)參數(shù),便能讓數(shù)據(jù)按照任意的時(shí)間間隔進(jìn)行統(tǒng)計(jì),便于以后復(fù)用函數(shù)此處附加Python處理時(shí)間格式的一些函數(shù)我們可以直接使用pandas中的參數(shù)解析時(shí)間數(shù)據(jù)#Normaldf=pd.read_csv(path,parse_dates=['columnname'])#Specialdateparse=lambdax:pd.datetime.strptime(x,'%Y-%m-%d%H:%M:%S')df=pd.read_csv(path,parse_dates=['co
4、lumnname'],date_parser=dateparse)當(dāng)然也可以自己寫(xiě)函數(shù)處理importpandasaspddefReturnTimeElement(Date):return[int(t)fortinDate.split('-')]defTransToTime(TimeElement):returnpd.datetime(*(TimeElement))defGetTime(Date):TimeElement=ReturnTimeElement(Date)Time=TransToTime(TimeElement)returnTimeT='2016-10
5、-19-9-47-00'>>>GetTime(T)datetime.datetime(2016,10,19,9,47)處理后可以得到如下數(shù)據(jù),命名為WIFITAPTag_Mean_All問(wèn)題分析:對(duì)于這個(gè)預(yù)測(cè)問(wèn)題有以下關(guān)鍵兩點(diǎn):機(jī)場(chǎng)每天的排班表基本穩(wěn)定,用戶在機(jī)場(chǎng)內(nèi)的行走模式也基本穩(wěn)定時(shí)間序列具有一定程度的連續(xù)性,下午三點(diǎn)至六點(diǎn)的情況會(huì)一定程度延續(xù)此前幾小時(shí)的情況基于以上兩點(diǎn)想法,就得到了兩個(gè)基本模型:均值模型和時(shí)間序列模型比賽初期只提供了前三個(gè)表格,所以開(kāi)始就注重分析了這幾個(gè)表格,例如從WIFIAPTag中可以提取出大概的位置信息和樓層信息,分組統(tǒng)計(jì)不同區(qū)域的W
6、IFIAP是否有接近的模式,同時(shí)也可從安檢和出發(fā)表格中尋找一定的關(guān)聯(lián)等等。但是經(jīng)過(guò)分析發(fā)現(xiàn),airport_gz_security_check及airport_gz_departure的數(shù)據(jù)雖然和airport_gz_wifi_ap的數(shù)據(jù)有一定的關(guān)聯(lián),但是其本身存在較大的隨機(jī)因素,用隨機(jī)預(yù)測(cè)隨機(jī)存在太大的變數(shù),不如只使用airport_gz_wifi_ap中的數(shù)據(jù)進(jìn)行更穩(wěn)定的預(yù)測(cè)(當(dāng)然肯定也有隊(duì)伍能很好得從airport_gz_security_check及airport_gz_departure中提出很很棒的特征)。后期提供的幾個(gè)表格由于數(shù)據(jù)質(zhì)量問(wèn)題,經(jīng)分析后發(fā)
7、現(xiàn)貢獻(xiàn)不是特別大,故也沒(méi)有進(jìn)一步利用。因而之后要說(shuō)的均值模型和時(shí)間序列模型都基于WIFITAPTag_Mean_All表格的數(shù)據(jù),并且是以WIFIAP為對(duì)象,每一個(gè)分開(kāi)預(yù)測(cè)。數(shù)據(jù)探索:接下來(lái)讓我們對(duì)數(shù)據(jù)有一個(gè)大概的了解defGetTimeSeries(WIFIAPTag):'''GetWIFIAPTag'sTimeSeries'''Tag_Data=WIFITAPTag_Mean_All[WIFITAPTag_Mean_All.WIFIAPTag==WIFIAPTag]MinTime=min(Tag_Data.Time)MaxTime=max(Tag_Data.T
8、ime)D