普元:解决数据质量问题是大数据应用的关键

简介:

ZDNET至顶网CIO与应用频道 05月04日 北京消息:研究称,整个人类文明所获得的全部数据量,有90%是最近两年内产生的。随着移动互联大潮的席卷,预计通过网路产生的数据量还将呈几何级增长。庞大的数据资源蕴藏着无限的宝藏,过去的一年无论是企业、政府还是媒体,都在谈论大数据。有人说大数据是黄金、是竞争力,然而在这一切谈论的背后却鲜有人关注数据质量这个最根本的问题。普元数据产品总监王轩认为,大数据处理的关键就是解决数据质量问题,规避数据错误、保障数据质量才能真正让企业从大数据应用中获得利益。

保障数据质量成为大数据发挥价值的先决条件

“企业做数据集成、数据处理的核心价值我认为是两个方面,首先当然能为企业带来更多的盈利,其次是规避风险,而实现这两个核心价值的关键就是解决数据质量问题。现在大数据环境也好,传统数据环境也好,大家面临很严重的问题在哪儿?我们做了很多数据分析和挖掘,这种分析挖掘到底对不对靠什么来衡量?有的企业是基于数据分析作出了一些营销的趋势性结论,但如果你的数据本身是错的,分析出来的结论未必有用。” 普元数据产品总监王轩表示,保证数据质量是大数据为企业带来价值的先决条件。

《大数据资产:聪明的企业怎样致胜于数据治理》一书的作者 Tony Fisher 曾提到,如果基本数据不可靠,大多数企业的大数据计划要么会失败,要么效果会低于预期。造成上述结果的关键原因在于,数据生命周期之中流入了不一致、不准确、不可靠的数据。在数据领域最流行的一个说法是“更好的数据意味着更好的决策”,这句话从来不假,在当今的大数据时代甚至更为真切。

“在我们接触的众多银行案例中,经常会遇到这种情况,做完一个数据仓库,客户信息重名的上万个,一个人1000多个账户,这都是数据质量的问题。为什么会出现这种数据问题呢?数据处理是一个复杂的过程,这其中有很多环节,从前期的数据标准、数据集成到数据处理等等,任何一个环节出错都有可能导致数据质量问题。其中数据处理是清洗数据和规避数据风险的重要环节,在这个技术领域普元做得很专注,在业内也是领先的。”王轩认为除了现有数据的处理,规避实时数据风险尤为重要的,如何在交易错误时即时阻断数据错误是保障数据质量的重要手段。由此普元早就提出大数据平台产品线的概念,把所有这些环节需要的技术手段都囊括进来,这正是普元正在修炼的‘秘籍’。”

普元大数据产品家族 助力企业大数据淘金

一直以来,国内大型企业主要采用国外的数据处理软件,随着技术的扁平化,国内的数据处理软件技术越来越纯熟,价格相对于国外‘大佬’来说更具竞争力。在数据处理市场国产软件越来越受青睐,一方面原因是企业成本,一方面则是信息安全。

“本土化的软件更适合国内企业的业务需求,自主掌握知识产权的产品对企业来说安全性更高,IT成本极大降低的同时安全性又得到了提高,企业何乐而不为。”王轩表示。

普元从2010年开始涉足大数据领域, “普元数据处理软件平台领先的技术和方法论可以从根本帮助用户解决数据质量的问题,普元的复杂事件处理平台则帮助用户实时规避数据风险,普元完备的大数据产品家族提供从咨询、数据集成、数据治理到可视化的‘一站式’服务更是解除了企业大数据应用的后顾之忧。”王轩指出普元大数据产品已具备丰富的功能。

目前普元的大数据产品家族分为四大平台,分别是智慧数据应用平台、复杂事件处理平台、数据质量平台和元数据管理平台。“普元的大数据产品线在业内是一流和领先的,这一点并非空穴来风。我们的产品在业内特别是金融行业有多年的积淀,普元的数据平台基础软件已经应用于国家开发银行、中信银行、北京银行、上海银行等国内金融行业的重点企业,普元数据线软件产品也受到用户的广泛认可。”王轩强调。

谈到普元大数据产品在未来的发展方向时,王轩表示“普元的大数据产品家族是非常丰满的,未来普元会持续加大在大数据研发方面的投入,继续完善和扩充大数据产品,以适应新技术时代企业不断变化的数据应用需求。”

原文发布时间为:2014年05月04日 
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
14天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
27天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
25天前
|
数据采集 分布式计算 大数据
Java语言在大数据处理中的应用
传统的大数据处理往往依赖于庞大的数据中心和高性能的服务器,然而随着大数据时代的到来,Java作为一种强大的编程语言正在被广泛应用于大数据处理领域。本文将探讨Java语言在大数据处理中的优势和应用,以及其在分布式计算、数据处理和系统集成等方面的重要作用。
|
17天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
22天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
33 0