分析至上大数据项目部署的五大愿景-阿里云开发者社区

分析至上大数据项目部署的五大愿景

2017-09-01 1849

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

文章讲的是 分析至上大数据项目部署的五大愿景，如果你正在尝试构建大数据应用或分析系统，你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求，分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。

　　好消息是人们正在努力应对这些问题，SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉，自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据。Apache Hadoop软件的发行商都在规划、测试，甚至已经发布了SQL(或SQL-like)分析选件，用于分析存在于Hadoop集群里的数据。这些发行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL阵营中，10gen公司已经对MongoDB的分析能力进行了改进，大数据厂商Acunu对Cassandra也做了同样的改进。

分析至上大数据项目部署的五大愿景

　　部署和管理Hadoop集群和NoSQL数据库对于大多数IT组织而言是一种全新的体验，但似乎每个软件更新带来的部署和管理新特性都能够让生活变得更轻松。与此同时，EMC、HP、IBM、Oracle和Teradata等厂商计划或已经提供了一些工具，旨在帮助企业进行Hadoop快速部署。其他厂商将重点放在Hadoop框架组件的使用，如WibiData，提供简化HBase的开源库、模型和工具。

　　收集和利用大数据的重点是进行预测分析和其他高级分析，进而得到更明智的商业决策。但是在数据人才短缺的今天，企业正在寻求一种更简便的方式支持复杂的分析过程。很多厂商和企业都在研究机器学习，这是因为它不依赖于专家，而是依赖数据和计算能力收集客户行为数据，并挖掘数据背后的商业模式。

　　大数据的3V原理的其中一个V是velocity(速度)，但是很难用“实时”一词来形容Hadoop，其弊端在于MapReduce的分析方法。MapR和HStreaming等厂商开始为Hadoop增加实时分析功能，其他厂商可能会效仿，尤其是那些事件流处理厂商。

　　排在第五位的大数据愿景是更简便的网络分析。目前，企业友好型图形分析数据库和工具不断涌现，它们采用了很多与Facebook相同的真正大规模的技术。这里提到的工具和技术很少有30年以上的历史，不会像关系型数据库和SQL查询工具那样成熟。但是有明确的迹象表明，大数据管理和分析的痛点正在迅速缓解。

　　愿景一：大数据规模的SQL分析

　　通过很多关于大数据人才短缺的故事和报告，就可以得到这样一个结论：大数据领域最迫切的需求是了解数据类型的数据科学家，他们也知道如何通过编写自定义代码、MapReduce作业和算法在大数据中获取洞察力。但是，为何不让擅长关系型数据库、商业智能(BI)和分析工具的SQL专家处理更多繁重的工作呢?SQL专家的数量远远大于数据科学家，并且大多数SQL专家更急于扩大自己的职业潜力。

分析至上大数据项目部署的五大愿景

　　推动在Hadoop之上提供SQL分析能力，大数据的人才短缺只是其中一个原因。另一个原因是Apache Hive——Hadoop中的数据仓库，它提供SQL-like查询功能的有限子集，但是Hive是将SQL查询转化成MapReduce任务，这导致Hive的性能缓慢。

　　为了应对Hadoop之上SQL查询范围更广、速度更快的需求，很多相关项目和方案陆续发布，如Cloudera Impala、EMC Pivotal HD中的HAWQ查询特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。

　　即使是NoSQL阵营也在为更好的SQL-like查询功能而努力。去年10gen公司为其MongoDB NoSQL数据库新增了一个实时数据统计框架，该框架让用户直接在MongoDB中查询数据，而不需要编写或者运行编译的、面向批处理的MapReduce作业。Acunu公司也在做类似的工作，它已开发出一种SQL-like的AQL(Annotator Query Language)语言支持Cassandra查询。

　　SQL查询功能的发展仅仅是个开端。BI、分析工具和大数据平台自身分析系统的脱颖而出，如Datameer、Hadapt、Karmasphere和Platfora等，它们提供了Hadoop之上的分区查询、分析、数据可视化和监控能力。

作者:小野编译

来源：IT168

原文链接：分析至上大数据项目部署的五大愿景

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

分析至上大数据项目部署的五大愿景

热门文章

最新文章

相关课程

相关电子书

相关实验场景

分析至上 大数据项目部署的五大愿景

热门文章

最新文章

相关课程

相关电子书

相关实验场景

分析至上大数据项目部署的五大愿景