用爬虫分析互联网大数据行业薪资情况-阿里云开发者社区

用爬虫分析互联网大数据行业薪资情况

2018-07-22 2650

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 随着互联网大数据行业的日渐兴盛，越来越多的人投身其中，也有很多的朋友对此有着浓厚的兴趣，想要投身其中。从本期开始我们将分四期带大家走进互联网大数据行业，分别了解数据挖掘&机器学习、数据分析、算法&深度学习、数据产品经理这四个不同的与大数据相关的职位。

前言：
随着互联网大数据行业的日渐兴盛，越来越多的人投身其中，也有很多的朋友对此有着浓厚的兴趣，想要投身其中。从本期开始我们将分四期带大家走进互联网大数据行业，分别了解数据挖掘&机器学习、数据分析、算法&深度学习、数据产品经理这四个不同的与大数据相关的职位。

数据来源：
我们未来四期的数据主要来源于拉勾网，目前比较火的招聘网站猎聘、boss直聘、拉勾都有比较多的互联网职位介绍。我们基于以下几点原因选择拉勾：1.薪资大多有直接的范围，较少为面议 2. 企业数量较全，基本上涵盖了互联网相关公司 3.url地址相对比较规整，方便进行批量爬取。数据展示页面如下：

该部分使用Python中Selenium爬取，部分代码如下：

while
 
True
:
        
try
:
            
for
 j 
in
 range(
15
):
                xpath = 
'//*[@id="s_position_list"]/ul/li['
+str(j+
1
)+
']'
                a = driver.find_element_by_xpath(xpath)
                job_desc.append(a.text)
                job_code.append(a.find_element_by_class_name(
'position_link'
                                ).get_attribute(
'data-lg-tj-cid'
))
            js=
"var q=document.documentElement.scrollTop=10000"
  
            driver.execute_script(js)
            driver.find_element_by_class_name(
'pager_next'
).click()
        
except
:
            
break

薪资情况：
我们将从多个角度去了解大家所关注的薪资情况，首先看一下各个城市的机会多少与平均月薪，如下图（气泡大小表示职位数量，柱形图高度表示平均月薪）：

可以看到，排名第八的武汉职位数量已经是北京的四十分之一了，排名靠后的城市职位数量小于20个。这一定程度体现了数据挖掘&机器学习职位在北上广深杭的集中性，除了五大城市之外，成都、南京、武汉未来也有着无限潜力。
下面看一下不同的工作经验所对应的职位数量与薪资情况：

可以看到拉勾网上大多的工作机会是针对于有工作经验的求职者。3年、5年工作经验也成为了两个比较重要的门槛，薪资会有明显的提示，这样说明了企业对于经验的看重
下面看一企业对于学历的要求：

需要注意的是，拉勾网上的学历要求为最低要求，实际工作中大家的平均学历会远高于图上所显示的。
我们来结合城市和经验看一下不同城市工作经验的提升对薪资的提升幅度：

北京在各个工作经验层面的薪资均处于全国领先位置，这也表明了帝都互联网中心的地位。在工作经验5-10年的对比上，广州的涨幅落后于其他几大城市，有在广州工作的朋友可以与我们分享下，这是否具有一定的现实性。
各大公司拉勾网提供平均月薪：

我们选取了在拉勾网上提供职位最多的十五家公司，BAT&TMD均在其中，也包括了搜狗、微博、网易这些知名互联网公司。出人意料的是提供职位薪资最高的是新浪微博，众所周知，一个企业内的实际平均薪资情况十分复杂，上述数据也只是其在拉勾网上放出职位的情况，仅供参考。
以上图表我们使用ggplot绘制，代码如下（以公司薪资图为例）：

ggplot(company_com,aes(x=reorder(company,-salary),y=salary,fill=
as
.character(rep(
1
:
5
,each=
3
))))+
  geom_bar(stat=
'identity'
)+
  geom_text(aes(label=round(salary,
2
),y= salary+
1
),size=
5
)+
  theme_wsj()+
  scale_fill_wsj()+
  scale_color_wsj()+
  ggtitle(
'各类公司拉勾网职位平均月薪(K)'
)+
  theme(axis.text.x = element_text(size=
12
),
        axis.text.y = element_blank(),
        plot.title = element_text(hjust=
0.5
,size=
25
),
        legend.position=
'none'
,
        panel.grid = element_blank(),
        axis.title  = element_blank(),
        axis.text = element_text(face=
'bold'
,hjus=
0.8
,size=
10
,angle=
15
)
  )

期望月薪计算：
我们用线性回归模型，简易地帮助大家计算一下所可以期待的薪资情况（数据为月薪，单位为K），我们仅选取了经验、城市、学历三个因素，并没有考虑交互项、高次项等因素，结果仅供参考，实际情况要复杂很多：

所需技能&福利：
想要得到不错的年薪，除了上述一些硬件条件，个人所掌握的实际技能实际上会起到更加重要的作用，我们就来看一下入职数据挖掘&机器学习所需掌握的技能：

顺利入职之后，我们又可以得到什么样的福利呢，可以看一下下图：

原文发布时间为：2018-07-19
本文作者：数据森麟
本文来自云栖社区合作伙伴“Python中文社区”，了解相关信息可以关注“Python中文社区”

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

用爬虫分析互联网大数据行业薪资情况

Python中文社区

热门文章

最新文章

相关课程

相关电子书

相关实验场景