大数据分析平台产品对比之MaxCompute 篇

简介: 之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery以及阿里云的MaxCompute。相信大多数人对亚马逊的EMR、Redshift,Google的Bigquery都比较了解。

之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery以及阿里云的ODPS,现在更名为MaxCompute,https://www.aliyun.com/product/odps。相信大多数人对亚马逊的EMR、Redshift,Google的Bigquery都比较了解。但在尝试使用ODPS后,­­ODPS感觉也是一款不错的大数据分析产品。本文主要为大家介绍关于ODPS的使用体验,同时也会与Redshift及Bigquery做对比,让大家对各款云产品有初步的认识。

鉴于很多人对ODPS不是很熟悉,在这里有必要简单介绍下。ODPS 是阿里云旗下一款功能较为齐全,使用便捷,完全托管的PB级别数据仓库产品,用于解决用户在分析大数据过程中遇到的问题。ODPS提供多种数据导入/导出手段,使用户数据轻松上云。且完全屏蔽底层算法的实现,即便没有分布式编程经验的开发人员,也能快速完成分析工作。同时ODPS提供的多种计算框架,在使用习惯上与开源Hadoop基本一致,用户不需要过多的额外学习就可以基本掌握ODPS的使用方法。此外,阿里云数加产品还为ODPS提供了友好的图形化界面,方便用户开发、配置作业,完成多用户协同工作。阿里云下的另一款产品CDP能够提供ODPS与阿里云旗下其他产品的数据互通。

下面,我将从准备工作、数据导入、BI分析以及机器学习、流式分析等场景介绍ODPS。


准备工作


在正式使用之前,仔细阅读了ODPS的文档,这个还是很有必要的,对产品的基本概念、安全策略、售卖方式要有足够的了解。在此之后再进行创建Project,Table等操作(各家的组织结构不尽相同,RedShift有Cluster、Database,Bigquery有Project、Dataset,ODPS是Project)。

在这方面ODPS和Bigquery明显好于Redshift,前两者真正做到了开箱即用,在创建Project后,即可进行数据开发工作,无需额外的启动服务及系统配置工作。用户不必关心硬件配置、系统规模等繁琐的配置。作为一款完全托管的大数据分析产品,ODPS可以根据业务情况做到计算资源自动弹性伸缩。但亚马逊要先启动Cluster,再创建Project,且在此过程中还需要诸多配置工作(这也难怪,AWS几乎都是基于ECS的)。

在付费方面,ODPS和Bigquery完全是按照云的理念按量付费,每运行一个作业产生一笔账单。这个不得不要吐槽亚马逊,超级贵啊有没有,几乎是国内ODPS的数倍!而且是按月出账单,稍不留神几千大洋就被扣掉了。本人就是一时疏忽损失了2000人民币,这也是我告诫大家仔细看文档的原因。可是,亚马逊和google的文档都是英文的,这是为神马?亚马逊不是要进中国嘛?可为啥到现在连中文文档都没有,为啥没中文文档,为啥没中文文档,为啥没中文文档?重要的事情…

说到文档,Bigquery的文档也还是较为简单,感觉也不过是Google放出来摆摆样子。Google强大的云计算技术并没有真的想施舍给中小企业。ODPS的文档还是比较全面的,描述准确、细致。虽然使用起来还是感觉有点小贵,但据说会很快推出降价策略。ODPS在成本控制方面也很用心,SQLCost这个命令可以估算每条SQL消耗的费用,很好用。


数据上云


如何使数据上云是大数据处理中遇到的第一个难题。通常情况下,在起始阶段会花费大量时间将数据导入云产品中。

ODPS是一款将存储与计算集成的产品,数据在导入ODPS后即可参与计算。ODPS提供多种操作简便的数据导入工具,通过简单的几项配置操作后,即可以通过数据导入工具将数据上传至ODPS。用户也可以通过ODPS提供的Restful API及Java/Python SDK完成多种多样的定制化场景需求。此外,ODPS可同现有生态对接,已经实现与OGG,Fluentd,Sqoop的对接,通过这些工具用户可以完成Oracle,Mysql,Hadoop的数据阐述。阿里云的CDP能够帮助用户完成云产品见的数据同步工作,例如:RDS、OTS、OSS的数据导入导出。


Redshift支持将S3、EMR、DynamoDB等产品的数据导入其中。当然最基本的,Redshift也支持Remote Host数据,可惜我从来没成功过。这也暴露了国外云厂商的缺点:距离有了,美没了。Bigquery支持导入BigTable的数据。


BI开发


有了数据,就可以进行数据查询。ODPS提供了友好的UI界面能够让用户定义数据查询。并且可以通过简单的控件拖拽方式决定多个任务间的依赖关系,不在需要编写复杂的任务调度工具。这的确节省了我大量的时间。一旦任务失败,会有报警短信发给我,不用担心白天由于报表没产出,老板给我脸色看。


如果想尽快获取SQL查询结果,可以通过简单的配置获得ODPS提供的准实时查询能力。这个是ODPS内置的,不需要将数据迁移到其他产品中。当然,如果不满足于ODPS提供的数据实时处理能力,想借助RDS或者ADS完成更快速的交互式查询及多维分析,可以通过CDP,将ODPS中的数据导入到RDS中。我当时使用的是ADS,更加便捷,可以直接加载ODPS的数据。这些产品可以为企业决策提供提供更快速的数据支持。


在这方面,Redshift及Bigquery真的显得乏善可陈。虽然Redshift支持jdbc协议,可以对接多种BI分析工具。但shuju.aliyun.com中提供了非常多的BI工具及分析套件。之前有见过阿里巴巴内部的BI分析师使用这套产品。


数据挖掘及机器学习


随着业务的不断发展,很多用户已经不满足于简单的BI分析,想通过数据挖掘及机器学习算法完成更位复杂的数据业务,例如:广告,个性化推荐,用户分类等。但并不是每家企业都具备开发分布式算法的能力,ODPS上面的PAI算法平台有不少常用算法,例如分类,聚类,预测,甚至还有深度学习算法。比较特别的是,这些算法通过简单的拖拽动作就可以搞定,无需使用者介入枯燥的编程工作,降低操作使用门槛。我之前通过阿里云发布的沟通邮箱申请了试用:



更为重要的是,用户可以通过ODPS提供的MapReduce、扩展的MRR及Graph模型提供定制算法的能力,并可以将这些算法分享给其他人。

这方面我没深入了解过AWS及Google。之前听说过AWS的Amazon Machine Learning,只可惜看到售价就差点把我吓跑了,按照条数收费。第一次尝试处理4MB数据,收了25美金....然后,就没有然后了。虽然AmazonMachine Learning同样提供可视化的工具和向导,但看看定价,还是算了。


流式分析


除大家熟知的离线分析能力,StreamCompute流式数据处理解决了实施数据处理的难题。不同于Storm,StreamCompute为提供的是SQL查询接口。普通的BI分析师也可完成流式开发工作。对于我这种懒人,是非常有吸引力的。只要一个SQL就搞定了:



结语


总的来说,目前把云计算当做重点发展业务的恐怕只有亚马逊和阿里云。Google怎么看起来都像是玩票的感觉。虽然也有很多小厂商投入到云计算的市场,但考虑到这个行业的特殊性(业务要求严苛,技术投入高),我还是会选择亚马逊、阿里云这样的大公司。从国内的服务现状来看,亚马逊虽然出道早,产品深入人心,但从定价、服务、使用习惯上,国内企业则更占优势。况且,阿里云ODPS这半年来更新很快,例如:加入了对Flume、Fluentd、OGG等数据导入插件的支持,定价也在准备下调。


bba01b493e1c5d904e882b1c380673c6ebe49a98
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
19天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
1月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
13天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
37 0
|
27天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
1月前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
1月前
|
SQL 分布式计算 监控
大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点:
【2月更文挑战第24天】大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点:
19 2
|
1月前
|
分布式计算 NoSQL 大数据
探索数据宇宙:深入解析大数据分析与管理技术
探索数据宇宙:深入解析大数据分析与管理技术
55 1
|
1月前
|
人工智能 大数据 流计算
大数据&AI产品月刊【2024年2月】
大数据&AI产品技术月刊【2024年2月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

相关产品

  • 云原生大数据计算服务 MaxCompute