新浪微博爬虫最新分享-阿里云开发者社区

新浪微博爬虫最新分享

2018-03-14 1748

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 Redis 版，社区版 2GB

简介： 前言：更新完《QQ空间爬虫分享（2016年11月18日更新）》(http://blog.csdn.net/bone_ace/article/details/53213779) 现在将新浪微博爬虫的代码也更新一下吧。

前言：

更新完《QQ空间爬虫分享（2016年11月18日更新）》(http://blog.csdn.net/bone_ace/article/details/53213779)

现在将新浪微博爬虫的代码也更新一下吧。

这次主要对爬虫的种子队列和去重策略作了优化，并更新了Cookie池的维护，只需拷贝代码即可实现爬虫分布式扩展，适合大规模抓取。
使用说明：

需要安装的软件：Python2、Redis、MongoDB；需要安装的Python模块：scrapy、requests、lxml。
进入cookies.py，填入你的微博账号（已有两个账号示例）。
进入settings.py，如果你填入的账号足够多，可以将DOWNLOAD_DELAY = 10 和CONCURRENT_REQUESTS = 1注释掉。另外可以修改存放种子和去重队列的机器，可以存放在两台不同的机器上面。
运行launch.py启动爬虫，也可在命令行执行scrapy crawl SinaSpider（Linux只能采用后者）。
分布式扩展：将代码拷贝到一台新机器上，运行即可。注意各子爬虫要共用一个去重队列，即将settings.py里面的FILTER_HOST设成同一台机的IP。

代码说明：

爬虫基于scrapy+redis架构进行开发、优化。
爬虫支持断点续爬。
非常简易地，便可实现分布式扩展。
使用Redis的“位”进行去重，1G的内存可满足80亿个用户ID的瞬间去重。
将种子优化到不足40个字符，大大降低了Redis的内存消耗，也提高了各子爬虫从Redis取种子的速度。
维护了一个Cookie池，各子机器共用一个Cookie池，断点续爬不会重复获取Cookie，当某个Cookie失效时会自动更新。

注：本项目用代码提交请求进行登录，不会遇到验证码。但是有个情况：如果一次性获取几十个Cookie，新浪会检测到你的IP异常（大约多久会被检测出来？以前是一分钟左右，现在好像几十秒，我们就用这几十秒登陆完所有账号，放心代码登录很快的），大约十个小时后会给你的IP恢复正常。IP被检测为异常会怎样？不会影响爬虫的抓取，只是你再登录账号时会被要求输入验证码，日志如[Sina_spider3.cookies] WARNING: Failed!( Reason:为了您的帐号安全，请输入验证码 )。
如果我的账号还没登录完就出现这种情况怎么办？可以先将爬虫停了，机器换个IP继续获取Cookie，放心已获取到Cookie的账号会自动跳过。当然如果你不喜欢受这个限制，可以用打码平台或着自己写个程序把验证码搞定。其实只是第一次启动爬虫才是需要获取那么多Cookie，之后只有等哪个Cookie失效了才会去更新。

数据说明：

用户发表的微博：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

_id : 用户ID-微博ID


ID : 用户ID


PubTime : 发表时间


Content : 微博内容


Tools : 发表工具/平台


Co_oridinates : 定位坐标


Like : 点赞数


Transfer : 转载数


Comment : 评论数

用户的个人信息：

_id: 用户ID

NickName: 昵称



Gender: 性别



Province: 所在省



City: 所在城市



Birthday: 生日



BriefIntroduction: 简介



Num_Fans: 粉丝数



Num_Tweets: 微博数



Num_Follows: 关注数



VIPlevel: 会员等级



SexOrientation: 性取向



Sentiment: 感情状况



URL: 首页链接



Authentication: 认证

原文发布时间为：2016-12-06

本文作者：九茶

 本文来自云栖社区合作伙伴“Python中文社区”，了解相关信息可以关注“Python中文社区”微信公众号

新浪微博爬虫最新分享

Python中文社区

热门文章

最新文章

相关课程

相关电子书