Python爬虫抓取知乎所有用户信息-阿里云开发者社区

Python爬虫抓取知乎所有用户信息

2018-03-14 2865

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

今天用递归写了个抓取知乎所有用户信息的爬虫，源代码放在了github上，有兴趣的同学可以上去下载一下看看，这里介绍一下代码逻辑以及分页分析，首先看网页，这里本人随便选了一个大V作为入口，然后点开他的关注列表，如图

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

注意，本人爬虫的全称都是处于非登录状态的。这里的粉丝列表以及关注者列表都是后台ajax请求得到的数据（没有听过ajax的童鞋别慌，ajax请求跟普通浏览器的请求没有区别，它主要就是在我们浏览网页时候偷偷给服务器发送的请求，就是为了节省流量以及减少请求数，不然每次看点新数据都全部刷新网页，服务器压力很大的，所以有了这玩意），然后我们找到粉丝列表以及关注者列表的URL，这个很简单，在chrome浏览器下面点击一下页数切换就可以找到，如图

找到关注者以及粉丝的URL就好办理，下面看一看这些数据，这里以粉丝的数据举例，如图，是一段json

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这里找到了粉丝的数据，不过这里不是用户的详细信息，只有部分数据，不过他提供了一个token_url,我们就可以获取这个ID访问用户的详细信息了，我们看看每个用户的详细信息怎么提取。这里楼主发现，在观看粉丝或者关注列表的时候，网页是会自动触发该用户详细信息的请求，如图

这次获得的是用户详细信息查询的URL，这里看一看这个详细信息的URL，如图

上面介绍了网页的基础分析，下面说一下代码的思路，这次爬虫用到了递归，本次用的scrapy抓取以及mogodb数据库存储的。

首先本人是用了一个大V作为爬虫第一个网页，然后分三步，第一步是爬了该大V的详细信息然后存入数据库，第二步是爬取了该大V的粉丝，第三是爬取了该大V 的关注者（其实就是爬取粉丝或者关注者的token_url），完成之后，利用爬取的粉丝以及关注者的数据构造他们每个人详细信息的url，然后挖取详细信息存入数据库。到这里递归第一步算是完成了，然后爬虫会从每一个粉丝和关注者入手，分别爬取他们的粉丝以及关注者的详细数据，不断递归

在代码里面还有加入了一些自动翻页的功能，有兴趣可以看看。下面是我们item里面定义要抓取的数据：

import scrapyclass ZhihuUserItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 answer_count = scrapy.Field()

#回答数量
 articles_count = scrapy.Field()

#写过的文章数
 follower_count = scrapy.Field()

#粉丝数量
 following_count = scrapy.Field()

#关注了多少人
 educations=scrapy.Field()

#教育背景
 description = scrapy.Field()

#个人描述
 locations = scrapy.Field()

#所在地
 url_token =scrapy.Field()

#知乎给予的每个人用户主页唯一的ID
 name=scrapy.Field()

#用户昵称
 employments = scrapy.Field()

#工作信息
 business=scrapy.Field()

#一些工作或者商业信息的合集
 user_type =scrapy.Field()

#用户类型，可以是个人，也可以是团体等等
 headline =scrapy.Field()

#个人主页的标签
 voteup_count = scrapy.Field()

#获得的赞数
 thanked_count=scrapy.Field()

#获得的感谢数
 favorited_count = scrapy.Field()

#被收藏次数
 avatar_url = scrapy.Field()

#头像URl

代码一共不足80行，运行了一分钟就抓了知乎一千多个用户的信息，这里上张结果图

最近忙完别的事了，终于可以天天写爬虫了，不知道大家这篇有什么问题不，可以随便向我提

最后提一提，爬取一定要伪装好headers，里面有些东西服务器每次都会检查。

原文发布时间为：2017-04-09

本文作者：蜗牛仔

本文来自云栖社区合作伙伴“ Python中文社区”，了解相关信息可以关注“ Python中文社区”微信公众号

Python爬虫抓取知乎所有用户信息

Python中文社区

热门文章

最新文章

相关课程

相关电子书

相关实验场景