备案控制台

开发者社区

开发者社区大数据文章正文

Node.js制作图片下载爬虫的一般步骤

2017-11-02 934

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

图片下载爬虫分两部分：爬页面和下载图片。

爬页面时先看网址是https还是http的，然后选择不同的内置对象；其次看编码，如果是charset=gb2312的网页就需要iconv帮忙转码，好在大部分都是utf8了这步可以省却，之后输出页面代码看看，不乱码就可以进行分析了；有时候网页使用gzip编码压缩了（网页头字段Content-Encoding是gzip），这时必须用zlib解码再读取；接下来用cheerio分析页面，用的是和jQuery相似的语法，分析出图片地址和下一页地址就完成任务了。

爬图片相对简单一些，首先还是要网址是https还是http的，然后选择不同的内置对象；先试着下载一次，正常就OK了，如果下载下来的图片只有1K那么说明网站用了反爬虫手段，一般在header里加上Referer就好了，Referer地址就是网站的host地址。

好了，目前基本上就是这些，以后有必要再补充。

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/xiandedanteng/p/7864811.html，如需转载请自行联系原作者

文章标签：

数据采集

JavaScript

编解码

关键词：

JavaScript爬虫

爬虫步骤

node.js图片

node.js爬虫

桃子红了呐

目录

相关文章

小白学大数据

|

1月前

|

数据采集 Web App开发 JavaScript

JavaScript爬虫进阶攻略：从网页采集到数据可视化

JavaScript爬虫进阶攻略：从网页采集到数据可视化

小白学大数据

48 1 1

JYeontu

|

2月前

|

JavaScript 前端开发安全

使用 Node.js 插件给指定目录下的所有图片添加上文字水印

使用 Node.js 插件给指定目录下的所有图片添加上文字水印

JYeontu

58 0 0

游客ruqdfvh2iuyqc

|

前端开发

node express 给前端返回图片流

node express 给前端返回图片流

游客ruqdfvh2iuyqc

539 0 0

node express 给前端返回图片流

biaoblog.cn个人博客

|

前端开发 JavaScript 数据格式

图片URL转file文件（前端+后端node.js）

图片URL转file文件（前端+后端node.js）

biaoblog.cn个人博客

1095 0 0

奔跑的数据

|

1月前

|

数据采集存储 JSON

解析Perl爬虫代码：使用WWW::Mechanize::PhantomJS库爬取stackoverflow.com的详细步骤

在这篇文章中，我们将探讨如何使用Perl语言和WWW::Mechanize::PhantomJS库来爬取网站数据。我们的目标是爬取stackoverflow.com的内容，同时使用爬虫代理来和多线程技术以提高爬取效率，并将数据存储到本地。

奔跑的数据

23 0 0

亚丁号

|

2月前

|

数据采集 JavaScript 前端开发

分享58个NodeJs爬虫源码总有一个是你想要的

分享58个NodeJs爬虫源码总有一个是你想要的

亚丁号

38 4 4

鑫宝Code

|

2月前

|

前端开发

【Node】一键生成博客标题图片

还在为写文章时找不到标题图片而困扰吗？举个例子，CSDN的博客文章如果你不给他图片的话，那么它会按照一些默认的标签图片作为你的文章封面，例如下面这样。

鑫宝Code

29 7 7

亚丁号

|

2月前

|

数据采集 Web App开发 JavaScript

nodejs爬虫框架

nodejs爬虫框架

亚丁号

113 0 0

小白学大数据

|

4月前

|

数据采集 JavaScript 前端开发

Java爬虫攻略：应对JavaScript登录表单

Java爬虫攻略：应对JavaScript登录表单

小白学大数据

40 0 0

JYeontu

|

5月前

|

编解码

node封装一个图片拼接插件

node封装一个图片拼接插件

JYeontu

73 0 0

热门文章

最新文章

node使用nrm 管理托管node的安装源

node的私服中Verdaccio批量发布和手动发布依赖

【node】 npm install 报错：code 128

【Node系列】Express 框架

【Node系列】Buffer详解

【Node系列】node中的流（Stream）

node+express搭建服务器环境

NodeJS 安装及环境配置

【Node系列】node工具模块

node的私服中Verdaccio主要命令

【AI大模型应用开发】【LangChain系列】实战案例2：通过URL加载网页内容 - LangChain对爬虫功能的封装

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

使用Python打造爬虫程序之破茧而出：Python爬虫遭遇反爬虫机制及应对策略

畅游网络：构建C++网络爬虫的指南

网络爬虫与数据采集：使用Python自动化获取网页数据

掌握 C# 爬虫技术：使用 HttpClient 获取今日头条内容

【python】爬虫-西安医学院-校长信箱

Python爬虫如何快速入门

简单描述一下爬虫的工作原理。

python并发编程:Python实现生产者消费者爬虫

相关课程

更多

Node.js 入门与实战

JavaScript入门与实战

Python爬虫实战

Python网络爬虫实战

Node.js 入门教程文档

JavaScript 自学手册文档教程

相关电子书

更多

探究 Node.js 的服务端之路

个推微服务实践基于OpenResty 和Node.js

沪江基于Node.js大规模应用实践

相关实验场景

更多

Html5和Webpack2：Webpack5打包JS和样式表

前端开发基础6：Node.js和LESS预编译工具

搭建Node.js编程环境

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）