天使轮获数百万投资,神箭手从爬虫切入构建大数据应用开发平台

简介:

随着数字化进程的加速,企业越来越重视数据的价值。根据IDC预计,全球大数据市场规模在2019年将达到1870亿美金。其中,企业除了关注自身的经营数据之外,对于外部数据,尤其是与自身息息相关的(如竞品动态、舆情信息等)数据也非常关注。

在获取这些数据时,最常用的手段就是爬虫技术。但传统的爬虫开发难度大,除了需要自己搭建服务器并运维,还需要工程师根据爬取需求编写代码、对接代理服务等等。计算下来,企业平均每月开发和运维成本往往需要上万元。

而猎云网今天带来的“神箭手”则为个人开发者和企业提供了简单便捷的爬虫工具。该项目创始人吴桐2013年硕士毕业于西安交大软件工程专业,毕业后加入谷歌搜索基础设施组,2014年离开谷歌创办壁虎数据恢复项目。

2015年8月,吴桐再度出发创办神箭手,从爬虫切入,希望把谷歌的大数据开发的管理理念带给更多用户。其核心创始团队都是吴桐的大学同窗,从大三时期就与吴桐一起创业。吴桐向猎云网独家透露,神箭手曾于2015年11月获得过来自中路资本的数百万元天使轮融资。

吴桐介绍,神箭手致力于成为一个一站式大数据应用开发平台,旨在通过为客户提供完整的开发架构和套件,降低大数据和AI应用开发的部署难度,实现从数据采集、清洗、训练、导出的完整生命周期。

当然,对于尚在起步阶段的神箭手来说,实现完整数据处理周期尚需时日。不过,该平台已经在第一步的数据采集方面体现出了自己的特点与优势。“爬虫市场”就是其中之一。

为了最大限度降低个人开发者和企业使用爬虫的技术门槛,神箭手团队自行编写了上百个爬虫,使用者无需关注如何设置IP、如何设置验证码,甚至对编程一窍不通的小白用户,也可以直接使用。

image

  神箭手操作界面

据猎云网了解,神箭手提供的爬虫可爬取的数据源囊括社交、电商、生活服务、互金、休闲旅游、汽车交通、医疗健康以及其他等多种分类。包括微博、淘宝、天猫、京东等网站的爬虫,都能在爬虫市场中找到。

值得一提的是,神箭手提供的爬虫目前全部都是团队自行编写。之所以尚未提供第三方开发者编写的爬虫,吴桐认为,爬虫对于代码编写技术要求较高,否则在运行时稳定性将受到影响。

虽然如此,但吴桐强调,现在的神箭手并非仅仅提供傻瓜式爬虫,而是一个开发平台。如果平台提供的爬虫无法满足用户需求,那么有开发实力的用户也可以在神箭手平台上自行编写爬虫并使用,并且平台对于这种用户还会有一定的鼓励。

除爬虫以外,目前平台也提供了诸多API调用。“其实,无论是爬虫还是API,甚至是直接购买数据池,都是用户获取数据的方式。我们希望夯实数据采集的第一步,再为用户提供后续的数据服务。”吴桐说。

在商业模式上,神箭手采用的是销售计算节点(服务器)的方式,每个节点79元,节点越多,爬虫爬取的速度越快。当然,平台也有套餐销售,根据节点数不同分为个人版和企业版。用户购买节点之后,根据爬虫所适用的最低套餐即可使用爬虫。而API则根据调用次数进行收费。

自2015年底产品上线以来,神箭手已积累了超过4万名用户注册使用,其中包括500多家企业套餐付费客户,目前月收入已超过20万元。

在数据采集器市场,其实已有包括八爪鱼这种工具存在。对于细分领域的竞争,吴桐认为,八爪鱼等产品是以软件形式存在,必须本地运行,这在数据爬取和软件更新时就会有所限制。而神箭手则是云服务形式,更灵活,自主性更强。另外其更专注对头部网站的爬取,这也是客户的重点需求。

接下来,吴桐透露,神箭手在解决了第一步数据采集之后,就要向云端机器学习、数据清洗、BI等后续环节迈进。另外,为企业提供私有化部署也是神箭手下一阶段的计划之一。

未来,吴桐希望能够将谷歌的代码管理理念融入神箭手,现在正在进行运行权限管理的研发,在未来实现云协同开发。

目前,该项目正在进行新一轮融资。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
18天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
27天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
24天前
|
数据采集 分布式计算 大数据
Java语言在大数据处理中的应用
传统的大数据处理往往依赖于庞大的数据中心和高性能的服务器,然而随着大数据时代的到来,Java作为一种强大的编程语言正在被广泛应用于大数据处理领域。本文将探讨Java语言在大数据处理中的优势和应用,以及其在分布式计算、数据处理和系统集成等方面的重要作用。
|
1月前
|
存储 大数据 数据挖掘
云计算与大数据:从基础设施到实际应用
云计算与大数据:从基础设施到实际应用
100 0
|
4天前
|
数据采集 API 数据安全/隐私保护
畅游网络:构建C++网络爬虫的指南
本文介绍如何使用C++和cpprestsdk库构建高效网络爬虫,以抓取知乎热点信息。通过亿牛云爬虫代理服务解决IP限制问题,利用多线程提升数据采集速度。示例代码展示如何配置代理、发送HTTP请求及处理响应,实现多线程抓取。注意替换有效代理服务器参数,并处理异常。
畅游网络:构建C++网络爬虫的指南
|
9天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
40 1
|
16天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
21天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。