使用Web Scraper 插件,不需要编程,也能爬网

简介:

使用Web Scraper 插件,不需要编程,也能爬网,使用Web Scraper插件,能够创建一个网站地图,并能遍历网站,抓取我们感兴趣的数据,比如,我们登陆淘宝,京东等商务网站,我们可以通过 Web Scraper,抓取某一类商品的规格说明,价格,厂家等信息,我们通过Web Scraper可以抓取我们进入头条上的最热门的文章,也可以抓取我们自己的所有文章列表,发布时间,阅读和浏览量等信息,当然也能抓取我们的粉丝列表。 最最最重要的是,你不需要写任何的代码,只需点击,点击,点击,最后还能把抓取的结果导出为Excel可以识别的CSV格式。这功能,爽!!!

其官方网站如下:http://webscraper.io/tutorials

使用Web Scraper 插件,不需要编程,也能爬网

Web Scraper Chrome 插件的安装

打开Chrome浏览器,输入下面的URL地址:

https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

使用Web Scraper 插件,不需要编程,也能爬网

点击“Added to Chrome”就安装了,安装后,在浏览器中按下F12或者点击右键,选择“检查(Inspect)”,在开发者工具下面就能看到WebScraper的Tab。

使用Web Scraper 插件,不需要编程,也能爬网

Web Scraper Chrome 插件的入门例子

下面以抓取京东上面的所有的手机信息为例子,使用Web Scraper演示一下其使用和操作方法。

Step1. 创建一个京东手机的SiteMap(网站站点图)

使用Web Scraper 插件,不需要编程,也能爬网

Step2. 在SiteMap上点击选择需要抓取的信息

如下图所示意,想抓取当前京东上,热门推荐的手机的网站和品牌信息,则抓取方法如下:命名一个id,这个id是自己定义的,然后选择抓取的类型,比如本例子中我们选择,“Link”

  • Link

  • PopupLink

  • Table

  • Element Attribute

  • Image

  • Groupped

  • HTML

  • Element

  • Element Click

  • Element Scroll down

然后选择你感兴趣元素,比如我选择了iPhone,荣耀,小米,华为,Vivo,Oppo,其会自动生成一个获取这些信息数据的表达式,我们可以称呼其为XPath,最后,点击保存。

使用Web Scraper 插件,不需要编程,也能爬网

Step3. 保存后,点击“Data Preview”预览数据。

使用Web Scraper 插件,不需要编程,也能爬网

Step4. 点击“Data Preview”预览的数据如下。

使用Web Scraper 插件,不需要编程,也能爬网

Step5. 点击“Scrape”,立马开始抓取数据。

当出现“Scraping Finished”的字样的时候,说明已经抓取成功。

使用Web Scraper 插件,不需要编程,也能爬网

Step6. 点击“Export Data as CSV”,导出为CVS的数据格式,这样Excel就能打开

使用Web Scraper 插件,不需要编程,也能爬网

写在最后的话

本文简单介绍总结了Web Scraper的插件的功能,安装以及一个简单的单页面例子。其实Web Scraper的功能远远不止于此,其实还能抓取分页,还能多页多元素的抓取,还能抓取二级页面,比如,所有iphone或者华为手机的价格,配置等信息










本文转自 小强测试帮 51CTO博客,原文链接:http://blog.51cto.com/xqtesting/2071868,如需转载请自行联系原作者
目录
相关文章
|
20天前
|
自然语言处理 Java 数据库连接
掌握JSP页面编程:动态生成Web内容
【4月更文挑战第3天】Java Server Pages (JSP) 是一种用于创建动态Web内容的Java技术,它结合HTML并允许在页面中嵌入Java代码。JSP支持代码片段、表达式语言(EL)和JSTL标签库,简化动态内容生成。当服务器接收到请求时,执行JSP中的Java代码并将结果嵌入HTML返回给客户端。示例展示了如何显示当前日期和时间。JSP可与Servlet、JavaBeans、数据库等结合,用于构建功能丰富的交互式Web应用。
掌握JSP页面编程:动态生成Web内容
|
26天前
|
JSON JavaScript 数据格式
jwt-auth插件实现了基于JWT(JSON Web Tokens)进行认证鉴权的功能。
jwt-auth插件实现了基于JWT(JSON Web Tokens)进行认证鉴权的功能。
40 1
|
2月前
|
消息中间件 监控 物联网
MQTT的奇妙之旅:探索RabbitMQ Web MQTT插件的威力【RabbitMQ 十一】
MQTT的奇妙之旅:探索RabbitMQ Web MQTT插件的威力【RabbitMQ 十一】
77 0
|
6月前
|
存储 Java 关系型数据库
JSP考试质量分析系统myeclipse开发mysql数据库bs框架java编程web网页结构
JSP 考试质量分析系统是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,开发环境为TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0,使用java语言开发,系统主要采用B/S模式开发。
184 1
|
2月前
|
消息中间件 监控 前端开发
RabbitMQ插件详解:rabbitmq_web_stomp【RabbitMQ 六】
RabbitMQ插件详解:rabbitmq_web_stomp【RabbitMQ 六】
87 0
N..
|
29天前
|
JavaScript 前端开发 PHP
web编程的正则表达式
web编程的正则表达式
N..
10 1
|
3月前
|
Web App开发 前端开发 测试技术
【Web API系列】使用异步剪贴板API(async clipboard)的图像的编程复制和粘贴
【Web API系列】使用异步剪贴板API(async clipboard)的图像的编程复制和粘贴
75 1
|
3月前
|
前端开发 JavaScript 算法
【web前端技术】响应式画廊Gallery插件-Justified-Gallery
【web前端技术】响应式画廊Gallery插件-Justified-Gallery
53 0
|
4月前
|
安全 数据安全/隐私保护 Python
基于Web安全的Python编程(1)
基于Web安全的Python编程(1)
44 2
|
5月前
|
移动开发 JSON JavaScript
七个帮助你处理Web页面层布局的jQuery插件
七个帮助你处理Web页面层布局的jQuery插件
44 0