小白爬虫第一篇——抓取淘宝文胸数据

  1. 云栖社区>
  2. Python中文社区>
  3. 博客>
  4. 正文

小白爬虫第一篇——抓取淘宝文胸数据

青衫无名 2018-03-14 14:52:19 浏览1456
展开阅读全文

小白爬虫系列的文章,顾名思义都是写给小白的,每一篇都是楼主都会选择一个网站进行实战,因为楼主觉得爬虫是一个力气活,只有在实战中才能提高战力啊。好了,话不多说,我们选择的第一个网站是淘宝,当然这次不是大规模抓取,大规模留到进阶篇。首先我们打开淘宝的首页,然后在搜索栏输入文胸(这里只是以文胸为例子,你喜欢写啥就写啥,本人测试无论输入哪种商品都可以),结果如图:

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

这里都是琳琅满目的文胸,然后楼主去网页的源代码看了看,商品的具体数据是JS动态加载的,不在源代码里面的,那么我们就找嘛,毕竟每页这么多的商品数据,找到这个JS文件也不难,因为淘宝的商品太多了,楼主就简单切换一下页数,果然在切换的时候抓到了这个js请求文件,如图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

打开这个文件可以看到都是我们需要的商品数据

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

抓到这个文件就好办了,我们先分析一下这个请求,如图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这里的URL是超级长,当

网友评论

登录后评论
0/500
评论
青衫无名
+ 关注
所属云栖号: Python中文社区