1. 聚能聊>
  2. 话题详情

今天咱们严肃活泼的聊聊下一代大数据计算引擎

权威解读:阿里云实时计算究竟对Apache Flink做了哪些‘改造’?

_
阿里云实时计算是一套基于Apache Flink™️构建的一站式全托管实时大数据处理平台。11月14日下午3点,实时计算团队的资深专家,和我们权威解读阿里眼中下一代大数据计算引擎的前世今生,聊聊阿里实时计算的那些事儿!

权威解读

实时计算团队将于11月14日举办实时计算产品线上发布会,届时重磅发布实时计算独享模式,资深技术专家和高级产品专家将共同分享阿里眼中的下一代大数据计算引擎。

演讲主题:《阿里巴巴对Apache Flink的改进和贡献》

_
王峰(莫问)
阿里巴巴资深技术专家
2006年毕业后即加入阿里集团,长期从事大数据技术研发工作,目前在计算平台事业部担任资深技术专家,负责实时计算引擎团队,旨在打造世界一流的实时计算平台。对Apache Flink™️进行了大量架构改进,功能完善和性能提升,打造出了阿里新一代实时计算引擎,并统一服务阿里集团所有实时计算业务和实时计算云产品。

演讲主题:《阿里云实时计算:下一代大数据计算引擎》

_
陈守元(巴真)
阿里巴巴高级产品专家
阿里巴巴实时计算团队产品负责人,2010年毕业即加入阿里集团参与淘宝数据平台建设,近10年的大数据从业经验,开源项目Alibaba DataX发起人,当前负责阿里实时计算产品的规划与设计,致力于推动Apache Flink™️成为下一代大数据处理标准。

客户说

_
阿里云实时计算今年4月份正式商业化之后,截止目前,使用用户已经超过2000家。在已有的用户中,实时计算主要应用于实时互联网数据分析、实时数据大屏、实时金融风控、电商实时推荐等诸多领域。阿里集团内淘宝、天猫、天弘基金、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术,在集团外,也包括众安保险、全民TV、新华智云、贵州茅台等诸多公司的应用案例。

阿里影业:影业实时报表开始做法也是按照传统型报表做法一样,直接从阿里云rds写sql查询,随着数据量越来越大,这种做法已经没有办法满足业务扩张,带来的问题响应时间变慢,吞吐量低,我们急需要一种技术方案能满足未来2-3年随着影院增加,数据增长,而报表功能还能很好的满足客户需求技术方案。后面接触到实时计算,得以很好解决这一业务难题。
淘宝:随着淘宝内容化的深入发展,实时选品的需求越来越强烈。对于某些实时性要求较高的产品(SPU)而言,运营小二希望自己圈定产品池可以当天实时生效,以供创作者写文章使用。该需求对选品的实时性要求较高,比较适合流式计算的特点。因此,采用实时流计算技术来实现该功能,实际应用中取得较好效果。
袋鼠云:州茅台,中国知名品牌,销售渠道广泛,获得巨大成功的同时,也有一些非常严重的问题,比如:黄牛刷单现象严重、数据采集实时性、稳定性差、各渠道下的流量、交易及售后物流、服务、退款退货等环节分析困难、异常预警信息监控困难等,袋鼠云基于实时计算 Flink开发了茅台企业大脑,很好的解决了上面的问题。
上海欧新:新零售线上线下一体这个概念的提出,为线下商场的发展指明了方向,很多商场&超市纷纷升级,拥抱互联网。上海欧新软件基于实时计算对其一个大型商场做出的智能化改造:一方面掌握整个商场的运营情况;一方面做一些针对性的改进,升级业务;整个数据流非常简单,首先是采集设备信息,使用的技术是wifi探针,然后把采集的数据经过slb发送到接受服务器,进而发送到datahub,实时计算订阅datahub,完成处理,然后把结果写出即可供下游使用。

实时计算 产品试用
线上直播地址

话题

1.你了解 流计算/实时计算 主要解决哪些业务场景下的问题吗?
2.你体验过实时计算/Flink吗, 解决了哪些业务问题?
3.你认为Flink要成为下一代大数据计算引擎,要解决哪些问题?
4.关于实时计算/Flink,你有什么问题想了解的?(问题被选中,即可有礼品哦)

我们准备50件礼品给参与上述问答的同学(勿水贴,认真填写均能取得我们的小礼物哦),欢迎对实时计算/Flink感兴趣的大数据爱好者们届时观看活动直播,与我们的嘉宾进行线上互动!
_

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    福禄寿淘公仔 x 1

  • 奖品二

    阿里云纪念T恤 x 1

63个回答

3

千狼 已获得福禄寿淘公仔 复制链接去分享

Q1
  • 实时计算主要是对流式数据或批量数据进行关联计算最终得到结果的一个过程 。 包括计数场景,关联数据匹配场景,数据分配场景等 。
  • 实时计算主要方案目前包括 流式处理框架: 。 spark/flink/jstorm ,批量处理框架 spark/flink 等 ,三种均是基于jvm 进行并行化操作数据结果 ,将流式数据或批量数据进行处理 ,并存储至目标库中。
Q2
  • 项目组成员在11月4号参加了上海线下flink meetup 之后,决心将线上部分服务移至flink 集群中,目前 已进入测试阶段场景:对nginx 日志 json 字段 进行匹配 求和 以及 实时动态展示 。
  • 后续计划: 将用户信息日志 通过flink 进行 aggregation , 以达到实时用户数据分析
Q3

结论: 会成为下一代大数据计算引擎
优点:

  • Flink 基于内存 处理方式,相比较 spark 速度更快 ,处理方式更加灵活 。

不足:

  • 和其他大数据组件目前的衔接并不友好
  • 算子操作还未完善
若有-若无 回复

回答很专业,看来是资深用户啊,赞!

阿水哥 回复

路过

王天天爸爸 回复

路过

评论
1

1456240532586871 已获得阿里云纪念T恤 复制链接去分享

1.你了解 流计算/实时计算 主要解决哪些业务场景下的问题吗?
当前主要是使用在实时多维度统计以及异常检测告警中
2.你体验过实时计算/Flink吗, 解决了哪些业务问题?
目前在实时处理引擎中使用FLink,主要解决的是线上API访问异常检测以及CEP方式路径检测
3.你认为Flink要成为下一代大数据计算引擎,要解决哪些问题?
主要是批处理场景还比较多,急需解决,同时当前实时处理中避免不了维表关联,需要比较好的构建存储方式,支持多级存储,内存、SSD,SATA盘等
4.关于实时计算/Flink,你有什么问题想了解的?(问题被选中,即可有礼品哦)
实时计算中在线机器机器学习算法支撑如何
有没有计划加入规则引擎
维表当前进展如何

眼袋姐姐姐 回复

好好

评论
2

小川游鱼 复制链接去分享

1.你了解 流计算/实时计算 主要解决哪些业务场景下的问题吗?
答:大体量数据分析,实时呈现,高性能、低延时、分布式、可扩展。
2.你体验过实时计算/Flink吗, 解决了哪些业务问题?
答:我还没有体验过,不过有机会尝试一把,用在我的系统平台中。
3.你认为Flink要成为下一代大数据计算引擎,要解决哪些问题?
答:大体量数据分析的准确性和实时性就是准确还要非常低的延迟,这样绝对会成为下一代大数据引擎。

若有-若无 回复

感谢回答,发布会结束后,在钉钉群里,私信群主你的邮寄信息哈,我发件小礼品给你!

评论
2

1203409502571805 复制链接去分享

Q1
做过hadoop,偏向后台,非实时的要求。感觉spark、flink主要的是为了解决实时、线上的场景。
Q2
拿flink处理过实时的视频流日志,做快速的分析。前面是kafka。
Q3
会成为下一代大数据计算引擎
后续希望结合异构计算、深度学习来做一些深入的东西。

若有-若无 回复

感谢回答,发布会结束后,在钉钉群里,私信群主你的邮寄信息哈,我发件小礼品给你!

评论
2

黄一刀 复制链接去分享

1.你了解 流计算/实时计算 主要解决哪些业务场景下的问题吗?
主要用于实时性数据分析,比较常用于互联网电商领域,对用户操作行为进行分析,实时反馈商品推荐。
2.你体验过实时计算/Flink吗, 解决了哪些业务问题?
没有,由于目前公司业务的局限性,暂时还用不到此类技术,但还是挺期待能接触这方面的技术的。
3.你认为Flink要成为下一代大数据计算引擎,要解决哪些问题?
高性能、稳定、可靠、数据精准、支持异构数据分析、智能决策。

1

海阔天空yy 复制链接去分享

1.你了解 流计算/实时计算 主要解决哪些业务场景下的问题吗?
一般应该是要用在 低延迟,高性能,分布式,可扩展 等要求的系统中,当然海量数据是必不可少的

2.你体验过实时计算/Flink吗, 解决了哪些业务问题?
目前还没有体验过,但随着公司的业务发展,以后应该会有这方面的需求。

3.你认为Flink要成为下一代大数据计算引擎,要解决哪些问题?
首先就是低延迟的问题,数据要在毫秒级返回是最好的
再有就是设备成本的问题,为了实现低延迟,如果全用内存存储,成本是很高的
4.关于实时计算/Flink,你有什么问题想了解的?
入门门槛高不高?数据备份以及更新是否及时

1

景凌凯 复制链接去分享

1.你了解 流计算/实时计算 主要解决哪些业务场景下的问题吗?

流计算:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息(实时、多数据结构、海量)
流数据数据格式复杂、来源众多、数据量巨大,不适合采用批量计算,必须采用实时计算,响应时间为秒级。实时性要求高
应用:PM2.5检测、电子商务网站用户点击流

2.你体验过实时计算/Flink吗, 解决了哪些业务问题?

在网站用户点击流的时候用过实时计算。

3.你认为Flink要成为下一代大数据计算引擎,要解决哪些问题?

可以的,

对于一个流计算系统来说,它应达到如下需求:
高性能:处理大数据的基本要求,如每秒处理几十万条数据
海量式:支持TB级甚至是PB级的数据规模
实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别
分布式:支持大数据的基本架构,必须能够平滑扩展
易用性:能够快速进行开发和部署
可靠性:能可靠地处理流数据

1

aoteman675 复制链接去分享

1.你了解 流计算/实时计算 主要解决哪些业务场景下的问题吗?
实时计算主要在于数据的实时决策类的,用于在电商平台上捕捉用户行为,及时调整推荐内容。
还就生产数据的分析,在生产制造业,数据的调整直接影响着产品的良品率、成本和能耗,数据的及时分析决策解决了企业智能智造难题。
2.你体验过实时计算/Flink吗, 解决了哪些业务问题?
实时计算还没有用过,不过实时数据大屏DataV应用上了。
3.你认为Flink要成为下一代大数据计算引擎,要解决哪些问题?
首先是成本低,还需要大容量分析能力,稳定和安全。数据不仅是企业的资产还是战略决策的方向,所以要保证数据安全和精准。

1

miaochenfly 复制链接去分享

大数据处理平台,第一代框架hadoop,以mapreduce行走天下,第二代spark,以速度领先,新一代Flink,何止于快,非常期待老师的讲解

0

1489209411327447 复制链接去分享

1.你了解 流计算/实时计算 主要解决哪些业务场景下的问题吗?
想知道昨天访问我博客的访问量 —> 这个很简单,根本不需要实时计算
想知道昨天来自每个省份对我博客的访问量 —> 这个也简单,我提前把每个省的访问量都预算好就行了
想知道昨天来自每个省份不同性别的访问量分布 —> 这个也不难,也就36*2 = 72条记录,我也提前预算好了。
想知道昨天来自每个省份不同性别不同年龄的访问量分布 —-> 有点够呛,不过也不难 ,继续预算
4.关于实时计算/Flink,你有什么问题想了解的?
Flink 是一个真正意义上的流计算引擎,和 Storm 类似,Flink 是通过流水线数据传输实现低延迟的流处理。Blink 和 Flink 的主要区别是什么?Blink 做了哪些优化和升级?

0

1584610349138639 复制链接去分享

有spark在前,为何要重复造flink这个轮子?或者说与spark相比,flink有什么独特的特性吗?

0

1206242464620209 复制链接去分享

严肃,这件事能严肃嘛,这事还真不好说

0

寒喵 复制链接去分享

Q1.实时计算主要是对流式数据或批量数据进行关联计算最终得到结果的一个过程 。金融风控除了实时对比,还有周期对比,维度算法对比。
Q2.没有用到过。
Q3.数据格式复杂、多源头、数据量巨大多数据结构等。
Q4.成本。。。。。。

0

1336338372781145 复制链接去分享

我就是想来混件t-恤

0

悟冥 复制链接去分享

实时和准实时的数据消费工具

0

1586842241399161 复制链接去分享

计算与分析

0

1603129540970052 复制链接去分享

我现在想学Python,Python,能不能根云计算搭上关系

0

小马哥快跑 复制链接去分享

厉害

0

50119625 复制链接去分享

哈哈

0

1157537595779170 复制链接去分享

你好我想多学些科技知识!

4
6196
浏览
0
收藏
邀请他人互动
关注
1
粉丝
30
话题
1

简介:

flink运营若有
结合大数据能力帮助电商企业快速搭建平台、应对业务高并发,剖析秒杀、视频直播等场景

快速、完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更...

用于实时预测用户对物品偏好,支持企业定制推荐算法,支持A/B Test效果对比

为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效率,降低 IT 成本...
阿里云总监课第五期重磅上线!

阿里云总监课第五期重磅上线!