基于MaxCompute的数仓数据质量管理

  1. 云栖社区>
  2. 阿里巴巴大数据 —玩家社区>
  3. 博客>
  4. 正文

基于MaxCompute的数仓数据质量管理

海清 2019-04-11 12:07:05 浏览1862
展开阅读全文

声明

本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。

参考文献

《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部 著。

背景及目的

数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。

数据质量保障原则

评估数据质量的好坏不同行业甚至不同企业有不同标准,在此我们主要从四个方面进行评估,即完整性、准确性、一致性和及时性。

  • 完整性。

    完整性是指数据的记录和信息是否完整,是否存在缺失情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,可以说,

网友评论

登录后评论
0/500
评论
海清
+ 关注