网站限制爬取薪资信息，代理IP来助阵-阿里云开发者社区

网站限制爬取薪资信息，代理IP来助阵

2019-04-26 1040

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 换工作需要知道该岗位目前市场薪资信息，企业招聘也需要知道各岗位当前薪资福利情况，这些情况是怎么分析出来的呢？这就要用到大数据了。但是，网站限制爬取薪资信息，面对这种情况可以使用代理IP来助阵的，就像芝麻代理的使用，方便快捷。

换工作需要知道该岗位目前市场薪资信息，企业招聘也需要知道各岗位当前薪资福利情况，这些情况是怎么分析出来的呢？这就要用到大数据了。但是，网站限制爬取薪资信息，面对这种情况可以使用代理IP来助阵的，就像芝麻代理的使用，方便快捷。

实战演练：通过Python来编写一个拉勾网薪资调查的小爬虫。
1.分析网页
我们在查看拉勾网上的招聘信息的时候，搜索Python，或者是PHP等等的岗位信息，其实是向服务器发出相应请求，由服务器动态的响应请求，将我们所需要的内容通过浏览器解析，呈现在我们的面前。
可以看到我们发出的请求当中，FormData中的kd参数，就代表着向服务器请求关键词为Python的招聘信息。
分析比较复杂的页面请求与响应信息，推荐使用Fiddler，对于分析网站来说绝对是一大杀器。不过比较简单的响应请求用浏览器自带的开发者工具就可以，比如像火狐的FireBug等等，只要轻轻一按F12，所有的请求的信息都会事无巨细的展现在你面前。
经由分析网站的请求与响应过程可知，拉勾网的招聘信息都是由XHR动态传递的。
我们发现，以POST方式发出的请求有两个，分别是companyAjax.json和positionAjax.json，它们分别控制当前显示的页面和页面中包含的招聘信息。
可以看到，我们所需要的信息包含在positionAjax.json的Content->result当中，其中还包含了一些其他参数信息，包括总页面数（totalPageCount），总招聘登记数（totalCount）等相关信息。
2.发送请求
知道我们所要抓取的信息在哪里是最为首要的，知道信息位置之后，接下来我们就要考虑如何通过Python来模拟浏览器，获取这些我们所需要的信息。
网站限制爬取薪资信息，代理IP来助阵
其中比较关键的步骤在于如何仿照浏览器的Post方式，来包装我们自己的请求。
request包含的参数包括所要抓取的网页url，以及用于伪装的headers。urlopen中的data参数包括FormData的三个参数(first、pn、kd)
包装完毕之后，就可以像浏览器一样访问拉勾网，并获得页面数据了。
3.抓取数据
获得页面信息之后，我们就可以开始爬虫数据中最主要的步骤：抓取数据。
抓取数据的方式有很多，像正则表达式re，lxml的etree，json，以及bs4的BeautifulSoup都是python3抓取数据的适用方法。大家可以根据实际情况，使用其中一个，又或多个结合使用。
网站限制爬取薪资信息，代理IP来助阵
4.信息存储
获得原始数据之后，为了进一步的整理与分析，我们有结构有组织的将抓取到的数据存储到excel中，方便进行数据的可视化处理。
网站限制爬取薪资信息，代理IP来助阵
这是使用xlsxwriter存储的数据，没有问题，可以正常使用。到从为止，一个抓取拉勾网招聘信息的小爬虫就诞生了。
网站限制爬取薪资信息，代理IP来助阵
通过实战，并借用代理IP，很容易就能获取到薪资信息，可以进行数据的分析之后，拿到当前的岗位薪资信息，这样可以帮助我们快速了解岗位的市场行情。

网站限制爬取薪资信息，代理IP来助阵

热门文章

最新文章

相关课程

相关电子书

相关实验场景