分析至上 大数据项目部署的五大愿景

简介:
文章讲的是 分析至上 大数据项目部署的五大愿景如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。

  好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据。Apache Hadoop软件的发行商都在规划、测试,甚至已经发布了SQL(或SQL-like)分析选件,用于分析存在于Hadoop集群里的数据。这些发行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL阵营中,10gen公司已经对MongoDB的分析能力进行了改进,大数据厂商Acunu对Cassandra也做了同样的改进。

分析至上 大数据项目部署的五大愿景

  部署和管理Hadoop集群和NoSQL数据库对于大多数IT组织而言是一种全新的体验,但似乎每个软件更新带来的部署和管理新特性都能够让生活变得更轻松。与此同时,EMC、HP、IBM、Oracle和Teradata等厂商计划或已经提供了一些工具,旨在帮助企业进行Hadoop快速部署。其他厂商将重点放在Hadoop框架组件的使用,如WibiData,提供简化HBase的开源库、模型和工具。

  收集和利用大数据的重点是进行预测分析和其他高级分析,进而得到更明智的商业决策。但是在数据人才短缺的今天,企业正在寻求一种更简便的方式支持复杂的分析过程。很多厂商和企业都在研究机器学习,这是因为它不依赖于专家,而是依赖数据和计算能力收集客户行为数据,并挖掘数据背后的商业模式。

  大数据的3V原理的其中一个V是velocity(速度),但是很难用“实时”一词来形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等厂商开始为Hadoop增加实时分析功能,其他厂商可能会效仿,尤其是那些事件流处理厂商。

  排在第五位的大数据愿景是更简便的网络分析。目前,企业友好型图形分析数据库和工具不断涌现,它们采用了很多与Facebook相同的真正大规模的技术。这里提到的工具和技术很少有30年以上的历史,不会像关系型数据库和SQL查询工具那样成熟。但是有明确的迹象表明,大数据管理和分析的痛点正在迅速缓解。

  愿景一:大数据规模的SQL分析

  通过很多关于大数据人才短缺的故事和报告,就可以得到这样一个结论:大数据领域最迫切的需求是了解数据类型的数据科学家,他们也知道如何通过编写自定义代码、MapReduce作业和算法在大数据中获取洞察力。但是,为何不让擅长关系型数据库、商业智能(BI)和分析工具的SQL专家处理更多繁重的工作呢?SQL专家的数量远远大于数据科学家,并且大多数SQL专家更急于扩大自己的职业潜力。

分析至上 大数据项目部署的五大愿景

  推动在Hadoop之上提供SQL分析能力,大数据的人才短缺只是其中一个原因。另一个原因是Apache Hive——Hadoop中的数据仓库,它提供SQL-like查询功能的有限子集,但是Hive是将SQL查询转化成MapReduce任务,这导致Hive的性能缓慢。

  为了应对Hadoop之上SQL查询范围更广、速度更快的需求,很多相关项目和方案陆续发布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查询特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。

  即使是NoSQL阵营也在为更好的SQL-like查询功能而努力。去年10gen公司为其MongoDB NoSQL数据库新增了一个实时数据统计框架,该框架让用户直接在MongoDB中查询数据,而不需要编写或者运行编译的、面向批处理的MapReduce作业。Acunu公司也在做类似的工作,它已开发出一种SQL-like的AQL(Annotator Query Language)语言支持Cassandra查询。

  SQL查询功能的发展仅仅是个开端。BI、分析工具和大数据平台自身分析系统的脱颖而出,如Datameer、Hadapt、Karmasphere和Platfora等,它们提供了Hadoop之上的分区查询、分析、数据可视化和监控能力。


作者:小野 编译

来源:IT168

原文链接:分析至上 大数据项目部署的五大愿景

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
27天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
104 0
|
8天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
31 0
|
21天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
28天前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
1月前
|
分布式计算 NoSQL 大数据
探索数据宇宙:深入解析大数据分析与管理技术
探索数据宇宙:深入解析大数据分析与管理技术
55 1
|
2月前
|
分布式计算 并行计算 大数据
Python多进程在数据处理和大数据分析中的应用
Python多进程在数据处理和大数据分析中的应用