資源描述:
《Python拉勾網(wǎng)數(shù)據(jù)采集與可視化.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、Python拉勾網(wǎng)數(shù)據(jù)采集與可視化 數(shù)據(jù)可視化 下載下來的數(shù)據(jù)長成這個(gè)樣子: 注意標(biāo)題(也就是列明)是我自己添加的?! ?dǎo)入模塊并配置繪圖風(fēng)格 importpandasaspd#數(shù)據(jù)框操作 importnumpyasnp importmatplotlib.pyplotasplt#繪圖 importjieba#分詞 fromwordcloudimportWordCloud#詞云可視化 importmatplotlibasmpl#配置字體 frompyechartsimportGeo#地理圖 mpl.rcParams[“font.sans-ser
2、if”]=[“MicrosoftYaHei”] #配置繪圖風(fēng)格 plt.rcParams[“axes.labelsize”]=16. plt.rcParams[“xtick.labelsize”]=14. plt.rcParams[“ytick.labelsize”]=14. plt.rcParams[“l(fā)egend.fontsize”]=12. plt.rcParams[“figure.figsize”]=[15.,15.] 注意:導(dǎo)入模塊的時(shí)候其他都容易解決,除了wordcloud這個(gè)模塊,這個(gè)模塊我建議大家手動(dòng)安裝,如果pip安裝的話,會(huì)提示你缺少
3、C++14.0之類的錯(cuò)誤,導(dǎo)致安裝不上。手動(dòng)下載whl文件就可以順利安裝了?! ?shù)據(jù)預(yù)覽 #導(dǎo)入數(shù)據(jù) data=pd.read_csv(‘D:Windows7DocumentsDesktopMyLaGouDataPython.csv’,encoding=‘gbk’)#導(dǎo)入數(shù)據(jù) data.head() read_csv路徑不要帶有中文 data.tail() 學(xué)歷要求 data[‘學(xué)歷要求’].value_counts().plot(kind=‘barh’,rot=0) plt.show() 工作經(jīng)驗(yàn) data[‘工作經(jīng)驗(yàn)’].value
4、_counts().plot(kind=‘bar’,rot=0,color=‘b’) plt.show() Python熱門崗位 final=‘‘ stopwords=[‘PYTHON’,’python’,’Python’,’工程師’,’(’,’)’,’/’]#停止詞 forninrange(data.shape[0]): seg_list=list(jieba.cut(data[‘崗位職稱’][n])) forseginseg_list: ifsegnotinstopwords: final=final+seg+‘‘ #final得到的詞匯
5、 工作地點(diǎn) data[‘工作地點(diǎn)’].value_counts().plot(kind=‘pie’,autopct=‘%1.2f%%’,explode=np.linspace(0,1.5,25)) plt.show() 工作地理圖 #提取數(shù)據(jù)框 data2=list(map(lambdax:(data[‘工作地點(diǎn)’][x],eval(re.split(‘k
6、K’,data[‘工資’][x])[0])*1000),range(len(data)))) #提取價(jià)格信息 data3=pd.DataFrame(data2) #轉(zhuǎn)化成Geo需要的格式
7、data4=list(map(lambdax:(data3.groupby(0).mean()[1].index[x],data3.groupby(0).mean()[1].values[x]),range(len(data3.groupby(0))))) #地理位置展示 geo=Geo(“全國Python工資布局”,“制作人:挖掘機(jī)小王子”,title_color=“#fff”,title_pos=“l(fā)eft”,width=1200,height=600, background_color=‘#404a59’) attr,value=geo.cast(dat
8、a4) geo.add(““,attr,value,type=“heatmap”,is_visualmap=True,visual_range=[0,300],visual_text_color=‘#fff’) #中國地圖Python工資,此分布是最低薪資 geo