备案控制台

开发者社区

开发者社区大数据文章正文

python3 asyncio异步新浪微博爬虫WeiboSpider

2018-01-18 3819

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 使用python 异步io开发的新浪微博爬虫，基于aiohttp。

一些废话

之前写的用python3+urllib写的多线程微博（传送门），后面发现登录账号频繁被403，所以解决登录问题迫在眉睫。而且python的“多线程”并不那么多线程，最近因为刚需，需要稳定的微博爬虫，所以琢磨了一下使用selenium+aiohttp+redis写了一个使用asyncio的新浪爬虫。

简介

这里不多废话，大概介绍一下怎么做的。大致是：

登录

通过weibo.com登录界面登录，因为weibo.cn登录如果需要验证的话是要类似于解锁那样验证的，不好做。

而weibo.com只要输入验证码，而验证码可以通过yundama来验证，yundama也不贵，验证一次大概一分钱吧，登录成功后，在去访问weibo.cn,新浪会自行转换weibo.com的cookies到weibo.cn的cookies

然后把cookies保存在redis共享

抓取

使用了aiohttp，毕竟python的协程比多线程更给力，爬虫就是个频繁io的过程，自然用协程比多线程快了不少。

解析用的是bs4，解析后的数据放到kafka上，想存哪存哪~

talk is cheap, show you the code

这里就不说具体怎么做和使用了，README.md上有使用不走，感兴趣的看源码去吧。

github:https://github.com/zhujiajunup/WeiboSpider

文章标签：

Python

数据采集

关键词：

Python asyncio

Python爬虫

Python异步

异步爬虫

爬虫异步

zhujiajunup

目录

相关文章

java开发-郭老师

|

11天前

|

数据采集 Python

【python】爬虫-西安医学院-校长信箱

本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。

java开发-郭老师

19 0 0

【python】爬虫-西安医学院-校长信箱

叫个什么名字

|

19天前

|

算法数据处理 Python

Python并发编程：解密异步IO与多线程

本文将深入探讨Python中的并发编程技术，重点介绍异步IO和多线程两种常见的并发模型。通过对比它们的特点、适用场景和实现方式，帮助读者更好地理解并发编程的核心概念，并掌握在不同场景下选择合适的并发模型的方法。

叫个什么名字

19 4 4

虫无涯

|

30天前

|

数据采集 Python

爬虫实战-Python爬取百度当天热搜内容

爬虫实战-Python爬取百度当天热搜内容

虫无涯

65 0 0

didiplus

|

17天前

|

数据采集安全 Python

python并发编程:Python实现生产者消费者爬虫

python并发编程:Python实现生产者消费者爬虫

didiplus

24 0 0

python并发编程:Python实现生产者消费者爬虫

小白学大数据

|

29天前

|

数据采集数据挖掘调度

异步爬虫实践攻略：利用Python Aiohttp框架实现高效数据抓取

本文介绍了如何使用Python的Aiohttp框架构建异步爬虫，以提升数据抓取效率。异步爬虫利用异步IO和协程技术，在等待响应时执行其他任务，提高效率。Aiohttp是一个高效的异步HTTP客户端/服务器框架，适合构建此类爬虫。文中还展示了如何通过代理访问HTTPS网页的示例代码，并以爬取微信公众号文章为例，说明了实际应用中的步骤。

小白学大数据

47 1 1

游客762btuqu5wybw666

|

4天前

|

API 调度开发者

深入理解Python异步编程：从Asyncio到实战应用

在现代软件开发中，异步编程技术已成为提升应用性能和响应速度的关键策略。本文将通过实例讲解Python中的异步编程核心库Asyncio的基本概念、关键功能以及其在Web开发中的应用。我们不仅将理论与实践结合，还将展示如何通过实际代码示例解决常见的并发问题，帮助开发者更有效地利用Python进行异步编程。

游客762btuqu5wybw666

15 5 5

xiejava

|

12天前

|

数据采集存储前端开发

Python爬虫如何快速入门

写了几篇网络爬虫的博文后，有网友留言问Python爬虫如何入门？今天就来了解一下什么是爬虫，如何快速的上手Python爬虫。

xiejava

17 0 0

小白学大数据

|

25天前

|

数据采集存储 Web App开发

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

小白学大数据

37 1 1

疯狂的猿

|

28天前

|

数据采集前端开发 JavaScript

Python爬虫零基础到爬啥都行

Python爬虫项目实战全程实录，你想要什么数据能随意的爬，不管抓多少数据几分钟就能爬到你的硬盘，需要会基本的前端技术（HTML、CSS、JAVASCRIPT）和LINUX、MYSQL、REDIS基础。

疯狂的猿

20 1 1

Python爬虫零基础到爬啥都行

桃李春风一杯酒

|

7天前

|

数据采集存储 API

网络爬虫与数据采集：使用Python自动化获取网页数据

【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识，包括网络爬虫概念（请求网页、解析、存储数据和处理异常）和Python常用的爬虫库requests（发送HTTP请求）与BeautifulSoup（解析HTML）。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用，如获取新闻数据和商品信息。

桃李春风一杯酒

26 2 2

热门文章

最新文章

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

轻松解决爬虫数据采集痛点

Rust高级爬虫：如何利用Rust抓取精美图片

网络爬虫与数据采集：使用Python自动化获取网页数据

python并发编程:Python实现生产者消费者爬虫

掌握 C# 爬虫技术：使用 HttpClient 获取今日头条内容

简单描述一下爬虫的工作原理。

Python爬虫零基础到爬啥都行

项目配置之道：优化Scrapy参数提升爬虫效率

「多线程大杀器」Python并发编程利器：ThreadPoolExecutor，让你一次性轻松开启多个线程，秒杀大量任务！

深入理解Python数据结构中的深浅拷贝

Jinja2：使用Python进行模板渲染的艺术

深入理解Python中的try-except语句，避免代码崩溃的噩梦

python编程简介（一）

python操作列表方法（二）

python操作列表方法（一）

python测试代码（三）

python测试代码（二）

python测试代码（一）

相关课程

更多

Python网络编程

Python Web 框架 Flask 快速入门

Python Web开发基础

Python爬虫实战

Python开发基础入门

Python网络爬虫实战

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

Python新手入门

Python入门

Python选择及循环结构

Python新手入门（Anolis OS）

Python网络通信程序典型应用

下一篇

阿里云oss简介和使用流程