• 大小: 654KB
    文件类型: .zip
    金币: 2
    下载: 1 次
    发布日期: 2021-07-08
  • 语言: Python
  • 标签: 数据分析  

资源简介

某招聘网站数据分析案例,数据清洗、图表显示,python编写及数据集

资源截图

代码片段和文件信息

#全国14个热门城市,搜索数据分析岗位的结果条目,共4087条
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams[‘font.sans-serif‘]=[‘SimHei‘] 
plt.rcParams[‘axes.unicode_minus‘] = False
data = pd.read_excel(r‘boss_zhipin.xls‘sheet_name=‘boss_res‘)
data.head()

#将id列设为索引
data1 = data.set_index(‘id‘)
data1.info()
#去除是实习工作的行,只保留全职工作
drop_lt = data1[data1[‘full_time‘]==‘否‘].index
data2 = data1.drop(drop_ltaxis=0)
data2.info() #删除后还剩4011行,一共删除了76行

#增加平均年薪列
data2[‘salary_max‘]=data2[‘salary_max‘].astype(‘int64‘)
data2[‘salary_year_avg‘] = ((data2[‘salary_min‘]+data2[‘salary_max‘])/2)*data2[‘month‘]
data2[‘salary_avg‘] = data2[‘salary_year_avg‘]/12#增加平均工资列
data2.head()
#14城总体工资分布情况
data2[‘salary_avg‘].describe()
data2[‘salary_avg‘].plot(kind=‘box‘)
plt.show()

#工资的中位数为8k,最低工资1.5k最高工资95k
data2[data2[‘salary_avg‘].isin([1.595])]#其中没有数据分析岗,而是其他的岗位,与这些公司发布职位的分类有关

#多数工资为6k-11k左右,其次为3k-6k
figax = plt.subplots(11figsize=(86))
ax.hist(data2[‘salary_avg‘]bins=20density=True)
#data2[‘salary_avg‘].plot(ax=axkind=‘kde‘)
ax.set_xticks(range(51005))
ax.grid(True)
plt.show()  

data2.city.value_counts()#不同城市的工资情况
ser = data2.groupby(‘city‘)[‘salary_avg‘].median()
figa = plt.subplots(11figsize=(126))
ser.plot(kind=‘bar‘ax=awidth=0.8color=‘gold‘label=‘各城市平均工资‘)
a.plot(ser.indexnp.array(np.random.randint(8914))linestyle=‘--‘label=‘全国平均工资‘)
plt.legend(loc=‘best‘) #各城市的平均工资都高于6k其中高于全国平均线的为北京、上海、杭州、深圳、广州
data2.head()

data2[‘education‘].value_counts()#各学历分布情况
data2[data2[‘education‘]==‘博士‘]#要求博士学历的很少,看一下是哪些职位要求博士的
se = data2.groupby(‘education‘)[‘salary_avg‘].median()#学历与工资的关系
se = se.sort_values(ascending=False)
figaa = plt.subplots(11figsize=(86))
se.plot(kind=‘bar‘color=‘green‘)
plt.title(‘学历与工资的关系‘)
plt.show()
#学历越高,工资越高
#初中及以下的平均工资与本科一样,高过大专,可能是这些公司为了在招聘时博得求职者关注,应该有问题,如培训机构
data2[data2[‘education‘]==‘初中及以下‘]

#工作经验与工资的关系
ss = data2.groupby(‘experience‘)[‘salary_avg‘].median()
ss = ss.sort_values()
ss.plot(kind= ‘bar‘figsize=(106))
ss.plot(color=‘orange‘)
plt.show()
#由图可见,工作经验越高,工资越高。经验为一年以内的与经验不限的工资水平基本一样。
#从折线斜率看,新人在参加工作的前1-2年工资平稳增长,但越往后,则越值钱,可见数据分析是越老越吃香,与吃青春饭的程序员不一样。

data2[‘industry‘].value_counts()#行业与工资的关系#招聘信息共来自于89个行业,其中最多的是互联网

#绘制一个以地图为背景的行业分布词云图
import jieba
import wordcloud
from imageio import imread
mask=imread(‘Chinamap.jpg‘)
w = wordcloud.WordCloud(width=1000height=700font_path=‘msyh.ttf‘background_color=‘white‘max_words=20mask=mask)
txt = ‘‘.join(data2[‘industry‘])
ls = jieba.lcut(txt)
txt = ‘ ‘.join(ls)
res = w.generate(txt)
plt.axis(‘off‘)
plt.imshow(res)

#挑选前10个热门行业作分析
industry_lt = data2[‘industry‘].value_counts().head(10).index.tolist()
industry_data = data2[data2[‘industry‘].isin(industry_lt)]
res = industry_data.groupby([‘industry‘‘education‘])[‘salary_min‘].median()
df = res.unstack(-1)
df.plot(kind=‘bar‘figsize=(1510)width=1color=[‘g‘‘gold‘‘c‘‘m‘‘wheat‘‘cornflowerblue‘‘tomato‘‘y‘])
plt.show()
#可见平均工

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件     3000320  2019-08-22 10:04  某招聘网站数据分析案例及数据集\boss_zhipin.xls
     文件        5549  2019-11-07 14:50  某招聘网站数据分析案例及数据集\源码.py
     目录           0  2019-11-07 14:50  某招聘网站数据分析案例及数据集\

评论

共有 条评论