DIYPA(自爬) - 产品级别的智能云爬取系统简介

  1. 云栖社区>
  2. 博客>
  3. 正文

DIYPA(自爬) - 产品级别的智能云爬取系统简介

末座少年 2018-09-03 11:20:31 浏览667
展开阅读全文

问题
互联网发展到现在,信息不是缺乏,而是信息泛滥。互联网用户如今经常碰到的问题是:

面对海量数据,不知道于何时,到何处取得自己想要的信息
          × 数据的多样性。比如音频,视频。

          × 数据的量太大了

          × 数据时效性。比如折扣,金融信息

          × 数据太分散, 碎片化。 原始数据需要后续处理

    image

不知道如何如何将网页数据结构化,以利于后续分析和处理。
          网页HTML数据不是结构化数据!!!

痛点
为了有效率的收集网页数据,爬虫技术应运而生。但是当前爬虫技术也是有弱点的

爬虫技术看起来高大上,不是普通人能掌握的
爬虫工程师的工资不错, 反过来,请一个爬虫工程师是 比较贵的哟
         下面的信息来自于51job,2015年11月 
image

         

爬虫后续维护工作量巨大: 众所周知,网页是经常变化的
产品介绍
DIYPA是一款小而美的工具,大大降低爬虫工作的难度和强度,减轻维护工作量。实现人人可做爬虫工程师的理想

方案图
DIYPA创造性的将爬虫工作分为两阶段:标记和爬取。
image

标记阶段/工具
标记工具用Javascript开发而成。以浏览器插件和bookmarklet形式部署到用户的浏览器

采用内嵌式,几乎可以嵌入任何网页
以所见即所得的方式,让用户定义需要爬取网页信息的位置(PlaceHolder)
点击热点(Hotspot),智能猜测用户的意图
允许用户定义爬虫属性:比如爬取时间,频率,通知方式等等
爬取阶段/云爬虫阵列
使用Django+ python + AngularJS + Scrapy+ Selenim + DRF开发而成。用户可以

创建,编辑,删除爬虫定义
查看/处理爬取到的数据
数据可视化
查看/管理爬取精度

image

image

产品家族
标准版
适用于普通用户。可以应用于

商品比价
网上求租/出租房子
网上上招工
image

专业版
适用于有相应能力的用户。比如分析师,工程师,数据科学家等。可用来做

收集金融数据
商业行业分析
Vale at Risk (VaR) 计算
各种各样的桌面和移动App的二次开发
     
image

企业版
面向企业。主要处理AJAX。可应用于

互联网征信
舆情分析
网上追逃
      image

特点场景
下图中黑色的圆圈 - 热点(Hotspot) 点击可动态切换标记元素

下图中黄色 - 点亮(Highlight) 表示用户当前标记的元素集

标记Redflagdeal (加拿大最大的折扣网站)
 image
    

标记大众点评
   
image

管理定时任务
    image

应用案例
北京一家众筹公司已经用DIYPA开发了一款热门投资指数的产品。

image

特点
image

网友评论

登录后评论
0/500
评论
末座少年
+ 关注