1. 聚能聊>
  2. 话题详情

说说你遇到比较难处理的实时计算业务场景?

你用实时计算解决哪些业务难题?

实时计算

这个概念与离线计算是相伴而生的。
离线计算:通过 ETL 程序清洗上报的数据,然后把数据存入 HDFS,通过 Hadoop 的批处理 Job 把数据导入 Hive、做 ORC 压缩处理、进行数据分区,然后再通过 Presto jdbc 定时调度任务,将 Hive 数据做统计聚合至 MySQL,然后为业务人员提供数据查询、钻取和分析的功能。
实时计算:不同于批量计算结果数据需等待数据计算结果完成后,批量将数据传输到在线系统;实时计算作业在每次小批量数据计算后可以立刻将数据写入在线/批量系统,无需等待整体数据的计算结果,可以立刻将数据结果投递到在线系统,进一步做到实时计算结果的实时化展现。
有了这样的需求和产品定义,自然会有相关的技术实现。目前工业级别的老牌实时流计算框架是 Storm,后起之秀有 Spark Streaming,Flink 等等。

阿里云实时计算

原阿里云流计算,是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛应用于流式数据处理、离线数据处理、DataLake计算等场景。阿里云实时计算助力企业向实时化、智能化大数据计算升级转型。

场景

实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。
大体分为四种典型场景:

*互联网点击流分析:实时分析网站用户行为,精准实时把握用户画像;
*金融实时风控:实时监控金融恶意行为,实时风控避免用户损失;
*物联网IOT风控:实时监控侦测设备故障,即使避免潜在业务风险;
*电商精准推荐:实时跟踪用户行为变化,精准推荐提升产品销量。

案例

*新华智云:项目需要实时接收来自多个渠道的数据,对原始数据进行过滤、清洗、结构化等流程处理后,将结果写入OTS、ODPS、ES等存储系统;与此同时,在对数据进行结构化的同时,需要从多个维度进行统计分析。
*小亿网络:用户画像管理系统,离线计算的最低频率是每天做一次计算。然而有一些标签的实时性要求是非常高的,比如我想知道师傅最近30分钟之内有没有操作过APP等等。运维监控系统:技术体系中,绝大部分的监控都可以使用阿里云的云监控来完成。但是仍有小部分是云监控无法实现的,比如接口访问量监控、短信发送失败比例监控、服务日志监控等等。
*皓量科技:AdBright项目每天会产生数十亿的业务日志数据,目前累计的数据量也达到了一百多PB,我们的数据团队每天需要对这些数据进行受众分析,用户标签分析,数据建模等,从而使得我们的广告能够更精准地投放。
*凯京信达:司机通过APP提交车贷业务申请,公司大数据团队从客户申请信息、客户渠道信息、第三方征信风险数据、客户移动端实时采集的数据等维度对客户进行风险识别。其中移动端数据涉及到客户的APP操作行为、设备相关数据等,涉及到大量风控模型特征变量的实时计算问题。

话题

每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?
For example:
1.用户A:以购物网站为例,如何计算某网站实时uv/pv?
2.用户B:比如我想知道货车师傅最近30分钟之内有没有操作过APP?
3.用户C:要取出一天访问次数TOP20的客户端IP,用SQL可以算出这些IP每分钟的增量值吗?

除了上述三件礼品外,我们准备了20件礼品回馈给有场景需求的用户,另外也欢迎更多同学提供相关实践案例
_

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    Flink马克杯 x 4

  • 奖品二

    Flink书包 x 4

  • 奖品三

    Flink基础教程 x 4

35个回答

4

黄一刀 已获得Flink书包 复制链接去分享

每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?
我的应用要一直往数据库里面新增、修改和删除数据,又要实时统计数据量、数据变化,还要记录数据操作记录,结果并发量一大,操作数据一多,不是应用服务器内存溢出、CPU飙高就是数据库服务器慢sql、无法响应、死锁。
PS;求个书包

若有-若无 回复

可以的,就喜欢这种回答来带节奏,哈哈哈~

评论
1

terry1985 已获得Flink马克杯 复制链接去分享

实时风控领域:需要保存历史一个月内的交易数据,并通过实时的CEP规则(规则中的部分数据是历史30天内存的累计)匹配找到风险商户。同时CEP规则可以动态发布和配置。

若有-若无 回复

赞👍~可以在钉钉群(21772761)中联系 若有,告知你的邮寄信息哈!

terry1985 回复

在群里啊 ,看到了才过来的

评论
3

福州安吉 复制链接去分享

每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?
我目前在负责一个省的计时培训系统,每天从车载终端传输过来的数据都有几千万条,数据写入数据库之后、又要实际计算出每个培训学员的学时汇总,然后再去判断学员学时是否达标,如果达标,就上传至公安系统,还要等待公安系统的返回状态,各种折腾,为了保证系统的稳定性和实时性,只能做应用集群、数据库集群、数据库读写分离、分库分表,硬件投入非常高,所以下一阶段准备引入实时计算,大数据计算引擎。

3

江小白太白 复制链接去分享

我负责的一个考试系统,每天都有一两千参加考试,系统需要实时计算,每天每场考试的考试情况,每天的考试情况,每周和每年的,并实时更新参考、合格、不合格的总人数,和最易失分的项目,这些都只能通过实时计算来实现,如果做不到实时就很可能导致考场资源浪费或者考试人数超标。

1

故事老神仙 复制链接去分享

QUESTION :每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?
ANSWER :看某某平台直播的跨年晚会时,平台有举办活动,活动是以分享朋友圈or好友助力的方式进行的,到新年来临之际会在app的界面上公布获奖名单,分为助力数最高的几名和特选的几名,公布时它会在界面上同时公布助力数,而公布出来的结果显示特选的几名选手的助力数皆为零,而打开详情的pk界面时却发现几人的助力数皆不为零。从而引发了俾人的胡思乱想。
:是否能在人为的操控已有数据库中的数据之后对已有数据库里的数据进行计算判断是否一致,若不一致时是否能及时的提醒管理员不一致的问题。
另外还有一个做论坛时特别关心的问题:能否计算出用户在各板块停留时间的长久,以及小到每一篇文章时间的长久,以便分析用户的兴趣点。
PS ~立个FLAG, 求打赏个FLINK背包♡

0

阿拉神鱼 复制链接去分享

我遇到的问题是为公司内部做实时报表,数据来源是mysql的binlog日志,由于前期的架构和数据的规范未考虑清楚,所以导致数据来源比较混乱,一张实时报表需要很多张表的join才能得到,而这些表每时每刻都会有新增,修改,删除操作,现在正在尝试使用flink解决问题。

阿拉神鱼 回复

求个Flink书包

评论
0

信得永生 复制链接去分享

行情数据实时性要求比较高的吧,我们目前也是用了flink,目前小问题挺多,不是很稳定,现在blink开源了,可以研究起来了,据说优化了很多东西

0

饭娱咖啡 复制链接去分享

每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?
医保系统:需要实时计算参保人员的医保费用,这个系统应该是城市越大,计算量越大。一出问题,一大批人会找你。医院、药店、病人以及病人的家属,还有你的领导。。。。。。

0

微wx笑 复制链接去分享

每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?
For example:
多种数据源(有时不可靠):当数据是由数以百万计的不同用户或设备产生的,它是安全的假设数据会按照事件产生的顺序到达,和在上游数据失败的情况下,一些事件可能会比他们晚几个小时,迟到的数据也需要计算,这样的结果是准确的。
应用程序状态管理:当程序变得更加的复杂,比简单的过滤或者增强的数据结构,这个时候管理这些应用的状态将会变得比较难(例如:计数器,过去数据的窗口,状态机,内置数据库)。flink提供了工具,这些状态是有效的,容错的,和可控的,所以你不需要自己构建这些功能。
数据的快速处理:有一个焦点在实时或近实时用例场景中,从数据生成的那个时刻,数据就应该是可达的。在必要的时候,flink完全有能力满足这些延迟。
海量数据处理:这些程序需要分布在很多节点运行来支持所需的规模。flink可以在大型的集群中无缝运行,就像是在一个小集群一样。

0

1175746473256322 复制链接去分享

每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?

-1

1165210709355696 复制链接去分享

有阿里云手机吗?

0

wxf449 复制链接去分享

金融实时风控场景下 一笔交易数据会计算几千个特征变量 最后一起送到模型中。但是 这些变量是用不同字段keyby的 所以是分别输出的。缺乏好的方案把特征都合成一条数据输出。
0

1340946328022230 复制链接去分享

阿里不要忌惮拼多多,感觉拼多多真的毫无价值,希望阿里对商家能好一点

0

1456546366264545 复制链接去分享

尴尬

0

1271646364397872 复制链接去分享

怎么做一个平台,网站

0

1549746362655587 复制链接去分享

怎样在阿里云获得收益

0

1576146357499796 复制链接去分享

感觉不出如何在传统制造业中发挥作用。如果可以实现,应该是可以为企业节省很多资源

0

1955844471867191 复制链接去分享

如何选择云平台

0

北方的郎 复制链接去分享

每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?
我的应用场景是在一个行业系统,大量业务集中办理的几天办理(类似双11),在办理业务的同时、要实时统计业务的办理量。包括做成Dashboard展示在一个管控中心的几个大屏上,而且领导希望数字能实时更新(类似淘宝的双十一大屏效果)。这样就要求在新增数据(可能同时还有修改)的同时,又要实时统计订单数量,订单金额等指标。没用Flink之前是用只读库来做,不过效果不太好,更新也不及时。

PS,很喜欢那个Flink的书包。

0

1570836547335426 复制链接去分享

每个大的应用场景下,都有一些小的具体计算需求,那么你在实时计算中遇到的具体的业务场景是?当向MySQL存储 查找数据的时候,如果数据少的话还可以,但数据一大,上亿以后就会很慢 卡停,该怎么解决呢 才去用多台机器共同处理吗,但我只有一台啊 烦
求书包

2
1846
浏览
1
收藏
邀请他人互动
关注
1
粉丝
1153
话题
2

简介:

flink运营若有
一款端到端一体化实时监控解决方案的PaaS级阿里云产品。通过该产品,用户可以基于海量的数据迅速便捷地通过定制化为...

快速、完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更...

阿里云流计算(Aliyun StreamCompute)是运行在阿里云平台上的流式大数据分析平台,提供给用户在云...

为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效率,降低 IT 成本...
报名 | Apache Dubbo™ 开发者沙龙@广州

报名 | Apache Dubbo™ 开发者沙龙@广州