如何驾驭大数据？-阿里云开发者社区

如何驾驭大数据？

2017-08-01 1239

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

大数据

到2018年全球大数据方面的开支将达1140亿美元，是5年前的3倍；到2020年全球大数据规模将达44ZB（泽字节），是2013年的10倍。下一波大数据浪潮即将来袭，但是并没有多少组织为此做好准备。如果应对措施不当，你可能就不是弄潮的那个，而是被浪尖打翻的那个。如何为驾驭大数据做好准备呢？请看Crewspark CEO Cameron Sim的文章。

1140亿美元。这是2018年全球组织在大数据方面的开销，仅仅5年的时间就增长了300%以上。但是这些投入有多少是值得的呢？

过去10年，我们目睹了大数据管理新方法的广泛应用，如MapReduce、供大规模存储使用的非模式化数据库，以及用于存储和处理的Hadoop、Storm和Spark等。但是大数据的使用不仅仅是特定平台或范例的部署而已：理想情况下这意味着公司对数据的建构和组织要如何进行彻底的重新设计。

但据调查发现，目前还没有多少组织为新的数据平台和能力做好基本准备。只有35%的组织拥有了“健壮的数据捕捉、管理、验证及保存流程”，更有67%“缺乏衡量定义明确的大数据行动成功的标准。”那些大数据解决方案基本都是被动集成进来的。

但时间可不等人，根据2014年IDC的报告，到2020年，全球的数据总量将达44ZB，整整是2013年的10倍。面对着下一波的数据大爆发，那些未做好准备的公司将可能就会有背负运营和技术双重债务的风险，并因数据落后而被淘汰出局。

具体而言，这些风险体现在以下几个方面：

企业丧失透明度

业界将面临大规模的技能短缺问题——很少有IT专业人士有经验管理大规模的大数据平台。根据麦肯锡的分析，到2018年，美国将出现150万名有能力做出基于数据决策的经理。为了缩短这一鸿沟，麦肯锡估计企业将需要把数据和分析预算的50%投入到一线经理的培训上面。但是还没有多少公司意识到这一点。

随着数据需求的扩大，如果对信息管理缺乏深刻理解，对数据扩展性缺乏最佳实践，那么在管理数据驱动的系统时就会遭遇到重大挑战。而糟糕的运营透明度会导致企业很难识别出数据何时不准确和无意义，甚至连关键报表和指标是否正确运行都不知道。理清这些错综复杂并对数据提出正确的问题将成为IT人员的必备技能。否则就会缺乏对企业运营的可视性，无法有效做出知情决策并削弱企业的竞争优势。

人工成本飙升

据估计2014年时数据科学家50-80%的工作时间花在了数据集清理和处理上。近期公司往往倾向把数据准备工作的自动化外包给离岸或近岸的数据专家。对CloudFactory、MobileWorks及Samasource这类微工作平台的需求已经爆发，据估计，到2018年这类业务的规模将达到50亿美元。

但是外包无法规模满足需求。鉴于未来的数据量将达到44ZB，数据的这种快速增长会需要成千上万具备长期可行的解决方案的离岸或近岸外包团队。而任何可持续的解决方案都离不开显著的自动化。

通信障碍

现在企业间的交互依靠的是经过组织的数据，但与未来20年发生的事情相比，这种组织数据的过程将会显得苍白无力。未来将会出现新的企业数据网络标准以及相应的算法和元数据。未能参与到这一全球数据市场的公司将无法利用市面上销售的这些数据产品。

全球各个领域都在发生这种朝着大规模商业数据共享的演变。比方说，在要求第三方验证其研究的压力之下，像葛兰素史克这样的药企最近都拟定了更广泛共享实验数据的计划。奥巴马总统已经要求技术公司共享潜在黑客威胁的数据。Forrester最近的一项研究预测，数据服务将成为2015年的主流产品。按照这种节奏，10年后大数据的有效使用不仅会成为市场致胜的关键，而且还是参与市场的先决条件。

这些风险就像一个个大数据的定时炸弹，对你构成严峻挑战。不过如果你采取下面的三个步骤，危险也许就可以解除。

1、不要走一步看一步

为了确保未来的分析能力，企业必须现在就开始投资一个能够快速有效管理新数据集的平台。应该考虑业务未来在数据摄入与联合方面如何运作，如何从传统的系统过渡到端到端的自动化的数据与分析。

其核心是这个平台要能够有目的地、小心地、透明地扩充，而不是光收集数据，但对这些数据使用却没有明确的目的，或者在数据的解析上不做投入。

2、再痛也要重建旧数据应用架构

许多公司过度依赖维护开销很高的旧系统，导致升级或作出战略变革的优先性被贬低。甚至一些大公司也是如此，比方说三星的SmartHub TV是跑在云上面的，但是因为顾忌迁移成本，其所有的金融交易仍在本地处理。

其结果就是在许多组织里面数据形成了一个个以部门为单位的烟囱。某些数据，比方说社交媒体方面的信息，甚至还保存在公司以外，这又增加了一层复杂性。要想大数据创新，企业必须以提高跨部门运营透明度为焦点对旧的数据应用进行翻新。

3、模块化、多颗粒度的数据管理

要把裸数据和洞察数据塑造成模块化、组织得当、具备各种颗粒度的实体，这一步做得越深入，越能够有效的利用商业洞察，同时还能在永远变化的大数据形势中保持敏捷的反应力。

本文作者：佚名

来源：51CTO

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

如何驾驭大数据？

企业丧失透明度

人工成本飙升

通信障碍

热门文章

最新文章

相关课程

相关电子书

相关实验场景