1. 聚能聊>
  2. 话题详情

猜想,双11前中后期哪些场景会用到大数据的海量计算

hi,大家好,这个话题主要和大家一起交流大数据在双11期间都有哪些实际应用提支持。

我先把这个问题抛出来,大家一起来猜想一下,你能猜想到哪些场景会用到大数据的海量计算。如果没有大数据平台支撑,双11会是怎样?后面我会在双11直播活动中为大家解密实际应用的技术与功能。
Alt Text

先抛个砖:

比如:双11期间一些大数据从零点第一笔交易发生,到媒体大屏上显示出统计结果,整个处理过程仅延时仅几秒钟;最高处理速度达到千万条/秒;阿里云MaxCompute扛下了单天数据处理峰值上百PB,以及百万级的调度作业。
那么在用户数据处理的时候往往有宏观的统计和分门别类的统计,如何能够实时汇报的各个统计数据场景下,还能保持分类统计和宏观统计的一致性?大家一起来聊聊吧,你们觉得应该怎么做?
举个例子,双11我们有个总的营收额,然后我们有个根据用户消费金额进行用户分类,分为消费100元下,1000元下,…;然后我们对每个类别进行用户数目统计而平均值的统计,如何确保在实时有成交的时候保证累加所有分类的缴费等于总的营收额, 即123

一起来说说你的实现方式,或是你对双11大数据应用场景的猜想吧!

相关视频分享——阿里大规模数据计算与处理平台

参与话题

奖品区域 活动规则 已 结束

33个回答

3

村村哥 复制链接去分享

我觉得,用到大数据的还是对于很多产品的交易流程。以及支付宝的交易数据处理。这个如果没有处理好的话,可能会影响用户体验,让用户觉得前端卡、慢。如果能够处理好,那就非常好了。前台体验不错。
还有就是购物车系统,可能也会用到,因为要去分析用户要什么,进行推送,在双十一之前可能很多人都加了购物车,合理利用大数据,对用户进行推荐,才能够更好的让用户去购买、使用。过一个更好的双十一~

1

林伟 复制链接去分享

可能大家对于在有实时更新的情况对于保持统计的一致性有多么重要可能还不是意识有多么重要,因为我们实时统计有微观的,宏观的,有的还是根据前面结果然后进行进一步二次三次统计的,如果不能做到时时刻刻在系统级别上做到一致性,也就是计算是不立即对于结果进行一致性的修正,那么基于这些N次迭代后的统计结果可能会产生剧烈波动,使得基于此做出的实时判断产生荒谬的错误结论

1

神圣剑帝 复制链接去分享

提一个我的大数据未来想法 不是现在的解决方案 因为也想不出更好的 大数据处理的瓶颈在于计算 比如一个多米诺骨牌 你手动推第一个牌倒了后自然会压到第二个牌倒一直倒到最后一个 而你只花了轻轻一指之力 但如果你要在计算机上模拟处理这些你却要从推倒第一个到最后一个所有的计算都要处理 这不是程序层面能优化的东西而是从计算机原理层面要革命的东西 当计算机处理一个多米诺骨牌倒完的全过程只需要处理那轻轻一指之力的时候大数据计算也会有一次革命

1

云栖技术 复制链接去分享

上千万or亿数据(有重复),统计其中出现次数最多的前N个数据,分两种情况:可一次读入内存,不可一次读入。可用思路:trie+堆,数据库索引,划分子集分别统计,hash,分布式计算,近似统
计,外排序
所谓的是否能一次读入内存,实际上应该指去除重复后的数据量。如果去重后数据可以放入内存,我们可以为数据建立字典,比如通过 map,hashmap,trie,然后直接进行统计即可。当然在更新每条数据的出现次数的时候,我们可以利用一个堆来维护出现次数最多的前N个数据,当然这样导致维护次数增加,不如完全统计后在求前N大效率高。如果数据无法放入内存。一方面我们可以考虑上面的字典方法能否被改进以适应这种情形,可以做的改变就是将字典存放到硬盘上,而不是内存,这可以参考数据库的存储方法。
当然还有更好的方法,就是可以采用分布式计算,基本上就是map-reduce过程,首先可以根据数据值或者把数据hash(md5)后的值,将数据按照范围划分到不同的机子,最好可以让数据划分后可以一次读入内存,这样不同的机子负责处理各种的数值范围,实际上就是map。得到结果后,各个机子只需拿出各自的出现次数最多的前N个数据,然后汇总,选出所有的数据中出现次数最多的前N个数据,这实际上就是reduce过程。
实际上可能想直接将数据均分到不同的机子上进行处理,这样是无法得到正确的解的。因为一个数据可能被均分到不同的机子上,而另一个则可能完全聚集到一个机子上,同时还可能存在具有相同数目的数据。比如我们要找出现次数最多的前100个,我们将1000万的数据分布到10台机器上,找到每台出现次数最多的前 100个,归并之后这样不能保证找到真正的第100个,因为比如出现次数最多的第10个可能有1万个,但是它被分到了10台机子,这样在每台上只有1千个,假设这些机子排名在1000个之前的那些都是单独分布在一台机子上的,比如有1001个,这样本来具有1万个的这个就会被淘汰,即使我们让每台机子选出出现次数最多的1000个再归并,仍然会出错,因为可能存在大量个数为1001个的发生聚集。因此不能将数据随便均分到不同机子上,而是要根据hash后的值将它们映射到不同的机子上处理,让不同的机器处理一个数值范围。
而外排序的方法会消耗大量的IO,效率不会很高。而上面的分布式方法,也可以用于单机版本,也就是将总的数据根据值的范围,划分成多个不同的子文件,然后逐个处理。处理完毕之后再对这些单词的及其出现频率进行一个归并。实际上就可以利用一个外排序的归并过程。
另外还可以考虑近似计算,也就是我们可以通过结合自然语言属性,只将那些真正实际中出现最多的那些词作为一个字典,使得这个规模可以放入内存。

云栖技术 回复

社区

评论
0

ihost 复制链接去分享

简单几点,前:搜索分析,购买分析,点击分析,年龄分析,地区分析,消费分析;中:精确推荐,综合分析不断调整广告栏和推荐(促进成交率和点击率);后:快递分析,购买环境分析,商品分析,获取渠道分析等

0

暮秋mu 复制链接去分享

评价方面,自己商品的库存量,打折的商品和卖出去的商品,哪些好卖卖家卖货时间地点方式都是必要的数据

0

乐于涂鸦 复制链接去分享

用户基本信息如姓名地址等进行分类,用户购物信息分用户统计,按区域reduce,最后reduce总的,基于主要纬度统计汇总计算,每一次计算尽量基于前向输出而不是重新计算

0

夜色太平洋 复制链接去分享

大数据的应用场景很多的

0

beikeali 复制链接去分享

视频中后段没声音啦,大数据的实时性和准确性做好确实很难 尤其是敏感的交易额等数据

0

宁静的小羽 复制链接去分享

持续成长型云计算对集群整体的要求很高。其中几个关键点,算法的正确性,依托云计算的性能优势在数据增长期间进行高频高精度的海量计算,保证state的及时更新;分布式处理不仅跨地域,同时集群负载均衡集群性能瓶颈;容器化保证服务的弹性伸缩和高可用性。应用的场景非常广泛,甚至可以用于智慧城市的城市状态海量运算更新。

0

木头人丶 复制链接去分享

想到共享开放数据的整合分析,在双11消费数据中不同信用分数人群的消费金额,种类等

0

1046080943590589 复制链接去分享

用户产生联系的时候,这一切都是数据,各种交易环节都需要大数据支持,阿里云计算可以满足种种嘛?

0

神圣剑帝 复制链接去分享

这方法不是老套路了吗

0

51干警网 复制链接去分享

我想知道的是成交量是不是还有一个后期的修正问题。
例如退款,退货,在运送途中物流车出现不可控因素使货物丢失。这些琐碎的数据在后期怎么判断的?

0

仙隐不可别 复制链接去分享

既要做到中间计算结果持续输出,又要确保每一步计算结果的一致性,除了增量计算的方式,想不到其它的解法

0

1755980826295941 复制链接去分享

处理到大数据应该是根据订单量的增多会处理到许多例如下单出单或者退单的几个过程导致数据运算量增多。

0

1745780666081014 复制链接去分享

下单出单或者退单的几个过程导致数据运算量增多

0

1004180868949689 复制链接去分享

后期期订单统计

0

1532147223029505 复制链接去分享

后期的统计分析是大数据处理的关键,比如一件产品在哪个地区的购买量是多少,男女比例,年龄阶段等。

0

1600247250401812 复制链接去分享

这个太多了,比如各个城市双十一消费排名等,双十一品牌销量排名等

2