实时计算 Flink:基于 Apache Flink 构建的大数据计算平台(附白皮书)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 实时计算 Flink版是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由Apache Flink创始团队官方出品。

Apache Flink:全球领先的开源大数据计算引擎

Apache Flink 是一个开源的分布式大数据处理引擎, 可对有限数据流和无限数据流进行有状态计算。作为 Apache 软件基金会 (ASF) 顶级项目之一,Flink 在流处理方面具有绝对的优势,提供高吞吐、低延时的计算能力, Exactly-once 语义保证数据的准确性,亚秒级别的处理延迟确保业务的快速响应。

作为快速发展的新一代大数据引擎,Flink 本身的架构优势也吸引着越来越多的开源爱好者投入到社区的建设来。 截止到 2020 年 7 月,社区的 star 数达到 13600+ ,contributor 数达到 718,有 22989 次 commits。伴随着社区的快速发展,Flink 也成为类似阿里巴巴、腾讯、字节跳动、滴滴、美团点评等知名公司建设流处理平台的首选。

Apache Flink 的系统架构image.png

完整白皮书下载>>>

https://files.alicdn.com/tpsservice/b3d617d245349b87d55bf370c1fd71d7.pdf

阿里云实时计算 Flink 版

实时计算 Flink版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica))是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由Apache Flink创始团队官方出品。在 PB 级别的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行业解决方案;在支持 Datastream API 作业开发的同时,提供了完整的SQL语义,使得 BI 场景下的开发变得更加简单;丰富的上下游 connector 保证了与用户已使用的大数据组件无缝对接;智能作业调优和诊断功能进一步简化了用户的开发和使用。

实时计算 Flink版在 Apache Flink 核心功能的基础上还增强了企业用户所关注的集群稳定、性能优化、安全控制、系统监控和作业管理等。阿里云实时计算团队目前是全球最大、拥有 Committer 数量最多、专业性最强的 Flink 团队,为实时计算用户提供企业级的管理和咨询服务。2019 年 6 月,由数据中心联盟发起的大数据产品能力评测结果权威发布,阿里云实时计算 Flink版通过最新制定的分布式流处理平台基础能力评测,成为国内首批通过流计算产品能力评测的产品,并被数据中心联盟圈定为国内大数据流计算基础平台第一梯队。2020 年在国际知名咨询调研公司Forrester 的测评中,实时计算 Flink版成为中国唯一进入Forrester象限的实时流计算产品

阿里云实时计算 Flink 版与 Apache Flink 的对比

对比2.png

实时计算Flink版产品架构

架构.png

阿里云实时计算 Flink 版产品模式

Flink全托管

  • 适合不关注集群运维,要求完全兼容开源的用户
  • 集群免运维
  • 企业级开发平台和内核引擎
  • 按CPU/内存使用量付费,成本低于用户自建
  • 100%兼容开源Flink API

Flink半托管

  • 适合需要自主掌控集群,要求完全兼容开源的用户
  • 集群用户自主可控
  • 支持 Yarn/K8S 两种调度模式
  • 企业级开发平台和内核引擎
  • 包年包月模式与用户自建成本一致
  • 100%兼容开源Flink API

独享集群

  • 适合需要使用流式SQL开发作业,不关注集群运维的客户
  • 提供流式SQL能力,支持DataStream API
  • 近百作业指标,完整监控链路
  • 提供作业诊断功能,一键分析作业问题
  • 提供智能调优功能,作业资源自动调节

阿里云实时计算 Flink 版的优势

优势.png

实时计算 Flink 版业务场景

实时数仓:

传统意义上将数据汇总到离线计算引擎,通过N+1天生成数据报表的模式已经不能满足快速增长的业务需求,互联网的在线特性也将业务需求推向了实时化,随时根据当前客户行为而调整策略变得越来越常见,传统数仓开始向实时数仓转型。

客户价值:

  1. 快速响应业务需求:秒级返回业务指标,快速进行多维分析
  2. 节省用户成本:业务结果实时数据化,协助用户及时调整方向,减少无用投入

实时数仓.jpg

实时风控:

风控是用户业务中的核心功能,应用范围非常广泛,包括内容风控、金融风控、营销风控等几大类型。互联网时代的到来产生大量的数据、访问、请求,新的业务需求促使传统的风控系统需要向大数据场景转型

客户价值:

  1. 实时性强:大数据场景下高吞吐、低延时,毫秒级报警拦截
  2. 独有事件规则支持:独有的CEP语法天然支持规则设定,完美适配风控场景

实时风控.jpg

实时机器学习:

机器学习作为大数据的重要场景在越来越多的行业得到应用,但传统的算法,主要侧重于使用静态模型和历史数据进行训练并提供预测,如何针对用户短期的行为进行准确的、个性化的预测,从而动态实施决策就成为新的难题

客户价值:

  1. 运营精细化:可支持对百万级客户快速画像,精准定位用户特性,个性化运营提高客户成交量与留存率
  2. 低门槛:无缝集成实时计算学习算法平台,一站式完成数据开发、模型训练、场景预测全流程

实时机器学习.jpg

实时计算 Flink 版产品交流群

test

阿里云实时计算Flink - 解决方案:
https://developer.aliyun.com/article/765097
阿里云实时计算Flink - 场景案例:
https://ververica.cn/corporate-practice
阿里云实时计算Flink - 产品详情页:
https://www.aliyun.com/product/bigdata/product/sc

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
19天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110165 8
阿里云实时计算Flink的产品化思考与实践【下】
|
29天前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1058 1
官宣|Apache Flink 1.19 发布公告
|
1月前
|
SQL Apache 流计算
Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
【2月更文挑战第25天】Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
131 3
|
1月前
|
XML Java Apache
Apache Flink自定义 logback xml配置
Apache Flink自定义 logback xml配置
136 0
|
1月前
|
SQL 分布式计算 NoSQL
使用Apache Hudi和Debezium构建健壮的CDC管道
使用Apache Hudi和Debezium构建健壮的CDC管道
16 0
|
1月前
|
存储 SQL 分布式计算
使用Apache Hudi构建大规模、事务性数据湖
使用Apache Hudi构建大规模、事务性数据湖
16 0
|
1月前
|
消息中间件 Java Kafka
Apache Hudi + Flink作业运行指南
Apache Hudi + Flink作业运行指南
78 1
|
SQL 分布式计算 大数据
Flink大数据计算的机遇与挑战
本文来自于王绍翾在2018年08月11日Flink China Meetup。
887 0
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
476 5
|
1月前
|
缓存 分布式计算 Apache
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
58 0

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多