备案控制台

开发者社区

开发者社区大数据文章正文

如何利用Python网络爬虫抓取微信朋友圈的动态（上）

2018-05-09 2567

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息，实际上如果单独的去爬取朋友圈的话，难度会非常大，因为微信没有提供向网易云音乐这样的API接口，所以很容易找不到门。

今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息，实际上如果单独的去爬取朋友圈的话，难度会非常大，因为微信没有提供向网易云音乐这样的API接口，所以很容易找不到门。不过不要慌，小编在网上找到了第三方工具，它可以将朋友圈进行导出，之后便可以像我们正常爬虫网页一样进行抓取信息了。

【出书啦】就提供了这样一种服务，支持朋友圈导出，并排版生成微信书。本文的主要参考资料来源于这篇博文：https://www.cnblogs.com/sheng-jie/p/7776495.html，感谢大佬提供的接口和思路。具体的教程如下。

一、获取朋友圈数据入口

1、关注公众号【出书啦】

img_687fe601ebf9befbcc7c7b33086aec5c.jpe

2、之后在主页中点击【创作书籍】-->【微信书】。

img_8ddc1d9c45328b5759c5377e32dfc75b.jpe

3、点击【开始制作】-->【添加随机分配的出书啦小编为好友即可】，长按二维码之后便可以进行添加好友了。

4、之后耐心等待微信书制作，待完成之后，会收到小编发送的消息提醒，如下图所示。

至此，我们已经将微信朋友圈的数据入口搞定了，并且获取了外链。

确保朋友圈设置为【全部开放】，默认就是全部开放，如果不知道怎么设置的话，请自行百度吧。

img_bde63694c0b35114420be9c75d72057e.jpe

5、点击该外链，之后进入网页，需要使用微信扫码授权登录。

6、扫码授权之后，就可以进入到微信书网页版了，如下图所示。

img_797001dc677268f0a5808a274f0fba56.jpe

7、接下来我们就可以正常的写爬虫程序进行抓取信息了。在这里，小编采用的是Scrapy爬虫框架，Python用的是3版本，集成开发环境用的是Pycharm。下图是微信书的首页，图片是小编自己自定义的。

img_847e79163a581e2f50878e455159b91a.jpe

二、创建爬虫项目

1、确保您的电脑上已经安装好了Scrapy。之后选定一个文件夹，在该文件夹下进入命令行，输入执行命令：

scrapy startproject weixin_moment

，等待生成Scrapy爬虫项目。

2、在命令行中输入cd weixin_moment，进入创建的weixin_moment目录。之后输入命令：

scrapy genspider 'moment' 'chushu.la'

，创建朋友圈爬虫，如下图所示。

img_d700e445f7bce2168b988cc80ef009ba.jpe

3、执行以上两步后的文件夹结构如下：

img_c3f6e5e2c4eda1f6be1f12587083c7cf.jpe

三、分析网页数据

1、进入微信书首页，按下F12，建议使用谷歌浏览器，审查元素，点击“Network”选项卡，然后勾选“Preserve log”，表示保存日志，如下图所示。可以看到主页的请求方式是get，返回的状态码是200，代表请求成功。

img_cdb5fbe56a4cc1778acdd078abdf71ab.jpe

2、点击“Response”（服务器响应），可以看到系统返回的数据是JSON格式的。说明我们之后在程序中需要对JSON格式的数据进行处理。

img_ee3d67ef0e16ee7ad03c3d5b7f160dd3.jpe

3、点击微信书的“导航”窗口，可以看到数据是按月份进行加载的。当点击导航按钮，其加载对应月份的朋友圈数据。

img_7a6fd07029346b60e3c4ab11e8058f17.jpe

4、当点击【2014/04】月份，之后查看服务器响应数据，可以看到页面上显示的数据和服务器的响应是相对应的。

img_2f895e0dff209a44bfd602a06c5e827c.jpe

5、查看请求方式，可以看到此时的请求方式变成了POST。细心的伙伴可以看到在点击“下个月”或者其他导航月份的时候，主页的URL是始终没有变化的，说明该网页是动态加载的。之后对比多个网页请求，我们可以看到在“Request Payload”下边的数据包参数不断的发生变化，如下图所示。

img_550f121853c24ff6c6e0018d6882e57a.jpe

6、展开服务器响应的数据，将数据放到JSON在线解析器里，如下图所示：

img_d24c36ceb81d485a5ec9f0a65c6b2e6f.jpe

可以看到朋友圈的数据存储在paras /data节点下。

至此，网页分析和数据的来源都已经确定好了，接下来将写程序，进行数据抓取，敬请期待下篇文章~~

文章标签：

Python

数据采集

数据格式

JSON

关键词：

Python动态

Python网络

Python抓取

Python网络爬虫

爬虫python

python进阶者

目录

相关文章

1941623231718325

|

8天前

|

安全 Java 数据处理

Python网络编程基础（Socket编程）多线程/多进程服务器编程

【4月更文挑战第11天】在网络编程中，随着客户端数量的增加，服务器的处理能力成为了一个重要的考量因素。为了处理多个客户端的并发请求，我们通常需要采用多线程或多进程的方式。在本章中，我们将探讨多线程/多进程服务器编程的概念，并通过一个多线程服务器的示例来演示其实现。

1941623231718325

29 0 0

1941623231718325

|

8天前

|

程序员开发者 Python

Python网络编程基础（Socket编程）错误处理和异常处理的最佳实践

【4月更文挑战第11天】在网络编程中，错误处理和异常管理不仅是为了程序的健壮性，也是为了提供清晰的用户反馈以及优雅的故障恢复。在前面的章节中，我们讨论了如何使用`try-except`语句来处理网络错误。现在，我们将深入探讨错误处理和异常处理的最佳实践。

1941623231718325

23 2 2

java开发-郭老师

|

11天前

|

数据采集 Python

【python】爬虫-西安医学院-校长信箱

本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。

java开发-郭老师

19 0 0

【python】爬虫-西安医学院-校长信箱

didiplus

|

17天前

|

数据采集安全 Python

python并发编程:Python实现生产者消费者爬虫

python并发编程:Python实现生产者消费者爬虫

didiplus

24 0 0

python并发编程:Python实现生产者消费者爬虫

阿文没烦恼

|

1天前

|

Python

Python动态IP代理防止被封的方法

Python动态IP代理防止被封的方法

阿文没烦恼

19 3 3

4as3qn2go3ure

|

1天前

|

机器学习/深度学习 Python

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

4as3qn2go3ure

11 0 0

长梦

|

1天前

|

JSON 网络协议 API

Python网络编程面试题精讲

【4月更文挑战第15天】本文介绍了Python网络编程的面试重点，包括基础Socket编程、HTTP协议与requests库、异步编程与asyncio库。通过实例解析常见面试题，强调了非阻塞套接字、异常处理、HTTP状态码检查以及异步任务管理等关键点。提供代码示例帮助读者巩固概念，助力面试准备。

长梦

9 0 0

4as3qn2go3ure

|

2天前

|

机器学习/深度学习存储测试技术

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

4as3qn2go3ure

5 0 0

4as3qn2go3ure

|

3天前

|

机器学习/深度学习资源调度数据可视化

使用Python和Keras进行主成分分析、神经网络构建图像重建

使用Python和Keras进行主成分分析、神经网络构建图像重建

4as3qn2go3ure

7 1 1

4as3qn2go3ure

|

3天前

|

机器学习/深度学习算法定位技术

python中使用马尔可夫决策过程(MDP)动态编程来解决最短路径强化学习问题

python中使用马尔可夫决策过程(MDP)动态编程来解决最短路径强化学习问题

4as3qn2go3ure

21 1 1

热门文章

最新文章

微信小程序上传文件至阿里云OSS直传(java后端签名+前端直传)

微信网页授权之使用完整服务解决方案

【微信公众平台对接】有关【上传图文消息内的图片获取URL】调用示例

微信团队分享：微信后端海量数据查询从1000ms降到100ms的技术实践

微信小程序全栈开发之性能优化策略

vue实现将自己网站（h5链接）分享到微信中形成小卡片（超详细）

基于springboot的微信公众号管理系统（支持多公众号接入）

java中实现定时给微信群中发送每日简报

mPaaS常见问题之音视频通话微信小程序通话界面录制为画中画模式如何解决

在使用微信小程序开发中用vant2框架中的Uploader 文件上传wx.uploadFile无反应和使用多图上传

JavaScript爬虫进阶攻略：从网页采集到数据可视化

写了个简单爬虫，分析 Boss 直聘自动驾驶岗位

【爬虫pyspider教程】1.pyspider入门与基本使用

Python爬虫-使用代理伪装IP

python爬虫 Appium+mitmdump 京东商品

登录态数据抓取：Python爬虫携带Cookie与Session的应用技巧

给我举几个爬虫抓取数据时遇到错误的例子。

给你一个具体的网站，你会如何设计爬虫来抓取数据？

请解释什么是代理服务器，以及在爬虫中如何使用代理服务器？

深入浅出：基于Python的网络数据爬虫开发指南

相关课程

更多

Python Web开发基础

Python爬虫实战

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

函数计算部署AI艺术字应用，生成新春文字头像

用Python画圣诞树

使用Python完成RDS数据开发及分析

免费撸A10显卡！在PAI-DSW里用FaceChain训练专属形象照

Github实时数据分析与可视化

基于Kibana Discover筛选数据，自由搜索航班信息

下一篇

阿里云oss简介和使用流程