权威解读:阿里云实时计算究竟对Apache Flink™️做了哪些‘改造’?

简介: 基于Apache Flink™️在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink™️在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,将产品命名为流计算,今年8月已正式更名为实时计算。

关于实时计算

image.png

实时计算LOGO

实时计算(Alibaba Cloud Realtime Compute,原阿里云流计算)是一套基于Apache Flink™️构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等多种场景。实时计算主要应用于实时互联网数据分析、实时数据大屏、实时金融风控、电商实时推荐等诸多领域,助力中国企业向实时化、智能化大数据计算升级转型。

历史和发展

image.png

基于Apache Flink™️在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink™️在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,将产品命名为流计算,今年8月已正式更名为实时计算。

目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于Apache Flink™️搭建的实时计算平台。同时Apache Flink™️计算平台运行在开源的Hadoop集群之上。采用Hadoop的YARN做为资源管理调度,以 HDFS作为数据存储。因此,Flink可以和开源大数据软件Hadoop无缝对接。阿里集团内,淘宝、天猫、天弘基金、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术,实时计算今年4月份正式商业化以来,半年时间,在集团外积累用户也已经超过2000家。

解决痛点

640.gif

双十一实时数据大屏(Demo)

阿里云实时计算可以提供FlinkSQL协助用户简单轻松完成流式计算逻辑的处理。同时,受限于SQL代码功能有限无法满足某些特定场景的业务需求,实时计算提供全功能的UDF函数,帮助用户完成业务定制化的数据处理逻辑。在流数据分析领域用户直接使用FlinkSQL+UDF即可完成大部分流式数据分析处理逻辑,目前的实时计算更擅长于做流式数据分析、统计、处理。主要解决了用户的三大痛点:

1.流式数据的及时性

在诸如实时大数据分析、风控预警、实时预测、金融交易等诸多业务场景领域,批量(或者说离线)处理对于上述对于数据处理时延要求苛刻的应用领域而言是完全无法胜任其业务需求的。而实时计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

2.一站式的流式数据处理

不同于开源或者自建的流式处理服务,阿里云实时算是完全托管的流式计算引擎,可针对流数据运行查询,无需预置或管理任何基础设施,用户可以享受一键启用的流式数据服务能力。阿里云实时计算天然集成数据开发、数据运维、监控预警等服务,方便用户最小成本试用和迁移流式计算产品。

3.SQL化的流式分析

支持标准SQL(产品名称为:FlinkSQL),提供内建的字符串处理、时间、统计等各类计算函数,替换业界低效且复杂的Flink开发,让更多的BI人员、运营人员通过简单的FlinkSQL可以完成实时化大数据分析和处理,让实时大数据处理普适化、平民化。

典型场景

image.png

实时计算典型场景应用

实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。

大体分为四种典型场景:

互联网点击流分析:实时分析网站用户行为,精准实时把握用户画像;

金融实时风控:实时监控金融恶意行为,实时风控避免用户损失;

物联网IOT风控:实时监控侦测设备故障,即使避免潜在业务风险;

电商精准推荐:实时跟踪用户行为变化,精准推荐提升产品销量。

客户案例

image.png

实时计算客户列举

经过两年的发展,实时计算在集团内,淘宝、天猫、蚂蚁金服、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术。今年以来,众安保险、全民TV、千寻、新华智云等集团外部客户也上线了诸多实时计算的典型场景和应用。

关于‘独享模式’

image.png

实时计算架构图

实时计算今年4月份商业化以来,一直以‘共享模式’的形式对外输出,在批处理领域,SQL 已经经历了几十年的考验,是公认的经典。但另一方面也对用户造成两大困扰:

1.仅使用 SQL难以描述自己的业务逻辑;

2.将某些已有的存在于代码中的业务逻辑翻译成SQL,烦不胜烦。

因此,实时计算独享模式应运而生。独享模式,是实时计算在原有共享模式基础上的补充。用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立。具备UDX开放、丰富的硬件、用户间的隔离等特性。

权威解读

实时计算团队将于11月14日举办实时计算产品线上发布会,届时重磅发布实时计算独享模式,资深技术专家和高级产品专家将共同分享阿里眼中下一代大数据计算引擎大前世今生。

演讲主题:《阿里巴巴对Apache Flink™️的改进和贡献》

image.png

王峰(莫问)
阿里巴巴资深技术专家

2006年毕业后即加入阿里集团,长期从事大数据技术研发工作,目前在计算平台事业部担任资深技术专家,负责实时计算引擎团队,旨在打造世界一流的实时计算平台。对Apache Flink™️进行了大量架构改进,功能完善和性能提升,打造出了阿里新一代实时计算引擎,并统一服务阿里集团所有实时计算业务和实时计算云产品。

演讲主题:《阿里云实时计算:下一代大数据计算引擎》

image.png

陈守元(巴真)
阿里巴巴高级产品专家

阿里巴巴实时计算团队产品负责人,2010年毕业即加入阿里集团参与淘宝数据平台建设,近10年的大数据从业经验,开源项目Alibaba DataX发起人,当前负责阿里实时计算产品的规划与设计,致力于推动Apache Flink™️成为下一代大数据处理标准。

此外,针对此次发布会,我们准备50件礼品给参与互动和问答的同学,欢迎对实时计算/Apache Flink/大数据处理 感兴趣的爱好者们届时观看活动直播,与我们的嘉宾进行线上互动!

image.png

注:Apache Flink™️ 是Apache的商标,受版权保护

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
28天前
|
缓存 安全 Java
阿里云数据库 SelectDB 内核 Apache Doris 2.0.6 版本正式发布
阿里云数据库 SelectDB 内核 Apache Doris 2.0.6 版本正式发布
|
22天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110419 10
阿里云实时计算Flink的产品化思考与实践【下】
|
28天前
|
存储 SQL 数据管理
阿里云数据库 SelectDB 内核 Apache Doris 如何基于自增列满足高效字典编码等典型场景需求|Deep Dive 系列
自增列的实现,使得 Apache Doris 可以在处理大规模时展示出更高的稳定性和可靠性。通过自增列,用户能够高效进行字典编码,显著提升了字符串精确去重以及查询的性能。使用自增列作为主键来存储明细数据,可以完美的解决明细数据更新的问题。同时,基于自增列,用户可以实现高效的分页机制,轻松应对深分页场景,有效过滤掉大量非必需数据,从而减轻数据库的负载压力,为用户带来了更加流畅和高效的数据处理体验。
|
28天前
|
SQL 数据可视化 Apache
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
阿里云数据库 SelectDB 内核 Doris 的 SQL 方言转换工具, Doris SQL Convertor 致力于提供高效、稳定的 SQL 迁移解决方案,满足用户多样化的业务需求。兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移。
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
|
30天前
|
消息中间件 API Apache
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。
1400 1
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
|
1月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1313 1
官宣|Apache Flink 1.19 发布公告
|
1月前
|
SQL Apache 流计算
Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
【2月更文挑战第25天】Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
141 3
|
1月前
|
Oracle 关系型数据库 流计算
flink cdc 同步问题之报错org.apache.flink.util.SerializedThrowable:如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
1月前
|
XML Java Apache
Apache Flink自定义 logback xml配置
Apache Flink自定义 logback xml配置
146 0
|
1月前
|
消息中间件 Java Kafka
Apache Hudi + Flink作业运行指南
Apache Hudi + Flink作业运行指南
81 1

热门文章

最新文章

推荐镜像

更多