数加平台如何通过Serverless 架构实现普惠大数据

本文涉及的产品
简介: Serverless 架构旨在将应用开发者从底层基础设施的运维中解放出来,更加专注于业务价值的实现上,这种思想对于大数据应用尤其适用,数据科学家更需要投入到数据价值的探索和挖掘上。本文讲述了数据平台如何利用Serverless 的架构来降低大数据应用的门槛,真正的实现普惠大数据。

 阿里云大数据 Serverless 理念

Serverless是一种架构理念,指的是以服务的形式来提供计算能力而不是以服务器形式,让开发者在构建应用的过程中不用过多考虑基础设施的问题。大数据业务本来就是最典型的计算业务,从计算的场景上来说,涵盖了离线批量计算、实时流计算、在线实时计算等,在很多情况下还需要把这些计算能力组合起来才能满足需求。所以Serverless 的架构天生就能很好的适用于大数据应用的场景,能把数据科学家从底层服务器层的运维管理等解放出来,让数据科学家专注在数据价值的探索挖掘上。

当前大数据云服务商里面只有Google 跟阿里云可以给用户提供完整的大数据Serverless 服务。Google 和阿里巴巴本身都是真正的大数据公司,对大数据的应用代表了行业领先的水平,今天在大数据云服务的提供上都一致的选择Serverless 的架构,也能很好的代表Serverless 架构在大数据应用领域的先进性。

以阿里云最重要的大数据产品MaxCompute 为例,无论是计算还是存储能力都是以服务的形式对外提供的,是典型的Serverless 服务。事实上,阿里云从一开始就坚持要把计算能力做成像水电煤一样的公共服务,而不是卖服务器给客户,这跟当下流行的Serverless 架构理念是一致的。这个理念在数加平台得到了很好的体现,数加平台能工一站式提供完整的大数据能力,离线,在线处理,大规模机器学习等,但没有一个服务以服务器形式提供的。

在更高层面的抽象,阿里云大数据平台今天已经可以提供很多业务场景化的计算服务,比如推荐引擎,规则引擎,以及各种人工智能的服务,甚至可以把数据和计算融合起来提供服务,典型的场景如下:

  •   数据分析服务化:按需组合使用各类Serverless 的服务,将多种数据源集成,清洗转换,关联分析,并以可视化的方式展现数据的洞察。过程中不用关心任何的物理架构,也不用关心各种工具的集成。
  •  数据服务化:指将已有的数据通过Serverless的方式(如API化)提供给使用者,常见的有:气象数据获取,根据地理位置获取对应位置的地点信息,图像识别(指能识别出特定的图片信息),特征新闻抓取服务等。
  • 算法服务化:主要是将输入的数据根据特定的算法进行提炼和运算,然后将结果输出,如人脸特征值提取,基因计算,图像渲染等。开发者无需考虑计算资源,只需将计算代码托管到大数据平台或者通过API接口调用大数据计算服务,由服务商提供计算资源的调度,监控和维护工作,能极大的降低运维工作量,同时具有更好的资源弹性伸缩能力。

 

阿里云大数据Serverless 实践

大数据应用相比流程性的应用有以下特点,

  • 流程长,从采集,存储,清洗,关联,到分析挖掘,直到变成数据服务
  • 逻辑复杂,大数据的价值就是要关联非常多的维度来分析
  • 不确定性强,数据的应用很多都是探索性质的
  •  技术体系复杂,不存在一个通用的引擎可以解决所有大数据的场景,离线处理,流式处理,在线分析都需要使用不同的引擎来支持

这些特点使得Serverless 的架构对大数据应用尤为重要,如果数据科学家陷入到这么复杂的底层构建和运维的细节,效率会变得非常低,甚至会导致很多的想法无法落地。

 

数加平台从用户视角来看,输入的是数据,输出的是智慧的服务。数加平台从底层将整个数据应用的链条全部打通,并提供了一系列的Serverless 服务,从数据采集,存储,各种处理,到最终变成数据服务。用户需要做的是开发、配置业务相关的处理逻辑、业务规则和算法等,把所有精力关注在数据价值的实现上,而不用关心底层技术和运维层面的架构,也不用关心系统资源管理等。

d2a4ba9d4ce44fe983ff8d9b240f5852fb591fb9


 

案例1:智慧水务

整体架构如下图:

1d9d5af7a8fc6090db7a6ddcd771051c43636817


利用IoT 套件采集设备数据,通过简单的配置即可将数据实时对接到大数据平台的DataHub.驱动以下典型的计算场景,

1)        在流计算中自定义SQL 对这些数据做实时的汇总统计,比如流量的统计

2)        在规则引擎中配置业务规则,通过这些规则对数据进行实时分析,判断设备的状态

3)        在规则引擎中配置异常检测的算法对设备状态进行预测,或者利用时间序列算法对管网运行状态进行预测,底层会应用到Maxcompute 对历史数据进行分析,产出的模型对接到StreamCompute,进而对新产生的数据进行实时预测

这个案例里面,利用到了大量的大数据的能力,离线存储和计算,流式计算,机器学习模型训练,数据可视化等等,但对使用者来说,需要做的是流计算SQL 的开发,业务规则的配置,以及偏业务的算法参数配置。而不用去管底层的平台要如何搭建,不同引擎之间的数据如何流转,以及系统的扩展性,稳定性,更不用关心要准备多少的物理资源。

 

案例2:智能服务机器人

将跟机器人交互的语音数据实时上传到大数据平台,驱动语音识别引擎对交互的内容进行识别,自然语言处理,构建知识库,最终形成一个问答系统。随着数据的积累,问答系统会变得越来越智能。

在这个案例里面,用户只需要将语音数据接入,输出的就是一个智能问答系统,完全不用关心底层的实现,而这个实现是非常复杂的,有能力的用户都需要花很大的成本才能搭建起来。

 

案例3:参考小红唇 https://yq.aliyun.com/articles/57256

这个案例组合使用数加的各种服务,快速的获得了大数据BI 的能力,所有的投入都是在数据业务价值的发现上,而没有花精力在技术平台的构建上。

 

上面这些案例都很好的展示了Serverless 架构对于大数据应用的价值:把用户从底层的部署,运维,以及资源管理的复杂性中解放出来,让所有的精力都可以投入在数据业务价值的探索和实现上。并且,利用数加平台,可以大大的提升数据应用的效率,传统的模式要数以月计才能完成的事情,使用Serverless 服务,几天就能完成,甚至可以更快,时效对于数据价值的最大化是至关重要的。

 

 阿里云数加平台简介

阿里云数加平台是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案,主要基于大数据基础服务提供用户大数据存储和计算能力。开发者使用数加可以轻松进行各种数据采集、数据加工、BI商业智能、人工智能和数据创新等操作。阿里云数加平台作为大数据Serverless的典范,助力企业在DT时代更敏捷、更智能、更具洞察力。

透过数加平台的数据市场相关API,开发者可以通过几行代码调用数据市场中由第三方提供商开发的各种数据服务(如获取各种交通数据、气象数据、海洋数据、水利数据等),方便快捷的获取各种数据,缩短开发时间,降低开发难度。通过数据市场的各种数据原料、数据API,数据越用越有价值,数据越关联越有价值。用户可以按需以服务的方式调用所需的第三方数据,并结合自有数据实现大数据分析和应用,以得到数据价值的最大化。数据服务化是数加平台的典型特点。

在数加平台,各种计算服务开箱即用,用户不必关心大数据集群的搭建、配置和运维工作,仅需简单的几步操作,用户就可以在数加平台中上传数据、分析数据并得到分析结果。用户不必关心数据规模增长带来的存储困难、运算时间延长等烦恼,数加平台根据用户的数据规模自动扩展大数据集群的存储和计算能力,使用户专心于数据分析和挖掘,最大化发挥数据的价值。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
12天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
36 2
|
1月前
|
人工智能 Serverless API
在函数计算上部署专属的Agent平台
Agent及Agent平台的相关概念和应用价值已经在《智能体(Agent)平台介绍》 文章进行了介绍,接下来我们要进行实际的操作,在阿里云函数计算上快速获取专属的Agent平台-AgentCraft
83208 7
在函数计算上部署专属的Agent平台
|
3月前
|
关系型数据库 MySQL Serverless
高顿教育:大数据抽数分析业务引入polardb mysql serverless
高顿教育通过使用polardb serverless形态进行数据汇总,然后统一进行数据同步到数仓,业务有明显高低峰期,灵活的弹性伸缩能力,大大降低了客户使用成本。
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
716 2
|
14天前
|
运维 安全 Serverless
Serverless架构在图像处理中的优势探讨
Serverless架构在图像处理中的优势探讨
16 1
|
6天前
|
弹性计算 安全 Serverless
图像处理场景下的Serverless架构
【4月更文挑战第15天】图像处理场景下的Serverless架构
|
8天前
|
人工智能 Serverless 数据处理
利用阿里云函数计算实现 Serverless 架构的应用
阿里云函数计算是事件驱动的Serverless服务,免服务器管理,自动扩展资源。它降低了基础设施成本,提高了开发效率,支持Web应用、数据处理、AI和定时任务等多种场景。通过实例展示了如何用Python实现图片压缩应用,通过OSS触发函数自动执行。阿里云函数计算在云计算时代助力企业实现快速迭代和高效运营。
45 0
|
1月前
|
敏捷开发 jenkins Serverless
Serverless 应用架构转型
【2月更文挑战第29天】
|
1月前
|
机器学习/深度学习 人工智能 Serverless
20行代码,Serverless架构下用Python轻松搞定图像分类和预测
本文将AI项目与Serverless架构进行结合,在Serverless架构下用20行Python代码搞定图像分类和预测。
111818 127
|
2月前
|
人工智能 Serverless API
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案

相关产品

  • 函数计算