分布式爬虫很难吗?用Python写一个小白也能听懂的分布式知乎爬虫

  1. 云栖社区>
  2. 博客>
  3. 正文

分布式爬虫很难吗?用Python写一个小白也能听懂的分布式知乎爬虫

雁横 2018-05-04 09:44:52 浏览4003
展开阅读全文

oLT1QEwrG3qKhB674rStBORSD2Cb07GuPUzZMKCP


前言

很早就有采集知乎用户数据的想法,要实现这个想法,需要写一个网络爬虫(Web Spider)。因为在学习 python,正好 python 写爬虫也是极好的选择,于是就写了一个基于 python 的网络爬虫。

几个月前写了爬虫的初版,后来因为一些原因,暂时搁置了下来,最近重新拾起这个想法。首先优化了代码的结构,然后在学弟的提醒下,从多线程改成了多进程,一台机器上运行一个爬虫程序,会启动几百个子进程加速抓取。

但是一台机器的性能是有极限的,所以后来我使用 MongoDB 和 Redis 搭建了一个主从结构的分布式爬取系统,来进一步加快抓取的速度。

然后我就去好几个服务器厂商申请免费的试用,比如百度云、腾讯云、Ucloud…… 加上自己的笔记本,断断续续抓取了一个多周,才采集到300万知乎用户数据。中间还跑坏了运行网站的云主机,还好 自动

网友评论

登录后评论
0/500
评论
雁横
+ 关注