MVP 学院大数据专场之我见(下)

简介: 阿里云大数据最佳实践相关内容

5月24日在阿里北京望京中心举办了一次阿里云MVP学院大数据专场活动,邀请了阿里云和优酷的技术专家进行了三场主题演讲,上周介绍了一部分令我印象深刻的内容,这周分享下半部分,这一部分内容主要聚焦阿里云大数据最佳实践相关的内容。

传统数仓到大数据分析的区别

我们知道传统的数据仓库已经发展了几十年,今天讲的大数据和传统数仓有什么区别?

  • 样本与全量、这里我有一点看法是虽然今天的大数据处理技术有能力处理全量数据,但也并不意味着可以无节制的收集数据,阿里云的原数据委员会主席车品觉曾经在《决战大数据:驾驭未来商业的利器》中写道:

当时,我们犯了一个直到现在才发觉的错误。那就是我们的做法跟一些美国公司的想法一致,即“不管怎么样,我们先收集数据,将来肯定有用”。我觉得,在我职业生涯的这些年,最值得反思的就是这句话。因为没有一家公司可以让你无止境的收集数据,然后再使用,这根本是不现实的。

  • 解释与预测、一个着眼于事后,一个着眼于事前。
  • 支撑与驱动、主动与被动的区别。
  • 知与行、很多道理大家都懂,假如没有做,就是零。

大数据项目的阶段性风险

阿里云的大数据产品经理总结了导致大数据项目失败的阶段性风险:
在大数据项目的建设初期(6-12个月),成本超支、性能不足、数据安全问题无法解决、分析效率满足不了业务需求是项目失败的主要原因。
为了避免失败,就需要进行及时的治理和优化,解决成本、性能、数据安全、分析效率的问题。
在项目建设后期(20-24个月),假如不能很好的表达业务价值,大数据系统将很容易变成成本中心,随着人员流动,系统将变成黑盒而无法修改,进而无法跟随业务的需求而持续进化,最终各种风险逐渐失控而失败。
如果不想坠入万劫不复,就需要对系统进行比较大的转型再造。

数据的资产化

数据的资产化可以让大数据平台的价值呈现出来;
数据的资产化可以成为大数据平台治理的依据;
所以必须进行数据的资产化,要建立元数据体系:

  • 数据元数据、可能包括基础元数据、主题元数据、应用元数据
  • 规范元数据、可能包括指标元数据、模型元数据
  • 服务元数据、可能包括表服务元数据、API服务元数据

数据的正确性和及时性

阿里巴巴研究员分享了一个大数据相关的概念:“沉默的正确性”。
是说大数据的计算成本是如此的高昂,以至于很难进行第二次计算,假如仅进行一次计算又怎么能够证明你拿到的结果是正确的呢?
阿里巴巴的解决方案是被称为DQC(数据质量中心)的一个体系,就是在主任务之外用来检查数据计算的逻辑是否正确的任务。如果要在将大数据实际应用到生产环境,就必须要解决数据的质量问题,要解决数据的质量问题就必须首先假定数据的质量是不稳定的。
和数据的正确性同样重要的是数据的及时性,如果组织的业务已经和大数据的产出息息相关,就必须能够保证数据在确定的时间产出。阿里用来保障数据产出及时性的工具叫做“摩萨德”,只要系统评估数据的产出可能会延迟就会自动报警通知相关人员进行及时处理。因为报警和处理通常要发生在晚上,因此针对这个数据的统计也被称为起夜率。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
机器学习/深度学习 人工智能 分布式计算
坚信大数据的变革力量——对话阿里云 MVP田亮
我和田亮的交流耗时较久,甚至用上了他出差的所有碎片时间,而他的回答始终谨慎、认真、高效。历任搜狐、阿里巴巴、新浪微博,10年如一日始终深耕大数据领域,阿里云 MVP田亮能在百舸争流中成为大数据和人工智能领域的佼佼者,似乎也就不奇怪了。
坚信大数据的变革力量——对话阿里云 MVP田亮
|
存储 人工智能 分布式计算
MVP学院大数据专场之我见(上)
5月24 号在北京阿里中心举行了一次MVP学院的大数据专场活动,邀请了阿里云和优酷的技术专家进行了三场主题演讲,其中有些内容令我印象深刻,晒出来供大家参考。
1460 0
|
分布式计算 算法 大数据
阿里云MVP田亮:让大数据为业务插上翅膀
从搜狐到阿里,再到微博和二次元社交平台,看一位大数据工作者走过的技术路
10333 0
|
存储 分布式计算 大数据
看完这些干货帖,大数据产品从入门到精通|MVP讲堂
看完这些干货帖,了解大数据产品应用场景
1907 0
|
存储 监控 数据可视化
阿里云MVP Tech Show第10期大数据之美
6月23日,阿里云在厦门举办了第十期阿里云MVP Tech Show,本次活动也是宏网信息与阿里云签署MVP项目城市合作伙伴协议之后的首次线下沙龙活动,活动主题是“大数据之美”。随着社会信息化的高速增长,各行各业每时每刻产生着大量的数据,这些数据如何去合理的存储与展现,是很多企业面临的问题,本期MVP Tech Show邀请了厦门点触科技股份有限公司研发经理上官成与美柚大数据专家李庆勇两位阿里云MVP为大家进行数据可视化与数仓建模最佳实践分享。
1574 0
|
分布式计算 安全 数据可视化
6位技术大咖11月倾心巨献,大数据+安全主题的技术分享合集【阿里云MVP 干货集锦】
大家好,阿里云 MVP 11月大数据+安全主题分享新鲜出炉,快来一睹为快吧!哪些MVP的分享最吸引你,你最想支持哪个MVP? 我们将开启为期一周的最人气内容评选,我们将在MVP评论内容下抽取评论最佳赠送公仔抱枕一只!并有机会受邀参加阿里云粉丝活动
2993 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1