1. 聚能聊>
  2. 话题详情

hadoop上云的冰与火

Hadoop经过10年的发展,目前已经成为大数据技术的标准;云计算也发展了将近10年,已经被越来越多的企业接受;

在企业自己采购自己的年代,很多企业都会经历过业务部署物理机,再虚拟化,再跟大数据混合部署。
企业把业务系统与大数据系统在云上部署服务,Hadoop上云,一体化解决问题也是一大趋势。
Hadoop加上云能碰出怎样的火花呢?

欢迎大家提出问题或者自己的观点。

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    淘公仔 x 3

  • 奖品二

    优酷VIP季卡 x 2

  • 奖品三

    聆听专属T恤衫 x 2

60个回答

0

店加智慧零售

云化部署是大势所趋,特别是中小企业,可以省去复杂的部署和维护工作,即开即用,不会浪费资源。主要的担心是数据安全、集群监控、个性化优化配置和虚拟化与相同配置物理机性能差异。当初评估了很久,最终还是选择了emr。希望越办越好,不负选择:)

封神 回复

非常感谢选择emr
对于数据安全,阿里云都有严格的安全保密的。比如VPC网络、网络白名单等。 后续会不断加强的,这个是云计算的根本。

个性化优化配置、集群监控 后续几个版本会不断完善的。

评论
5

sures 已获得淘公仔 复制链接去分享

1、EMR的多租户是怎么解决的?可否具体点解释。
2、EMR安全措施,如何打消客户的顾虑?
3、EMR在典型行业场景应用方面做了哪些针对性的工作
4、EMR易用性方面的举措,如何尽可能的做到让不太懂大数据的人也能使用?
5、EMR和竞品的优势?比如亚马逊
6、EMR在节省费用方面,虽然以往讲座中有提到,但不够清楚。将来能否写一系列博文,具体描述一下。相信对EMR推广和减轻咨询工作量都有益。

封神 回复

感谢提了这么多问题,相信也是很多其它用户的疑问。
1、emr本身是多集群模式的,也就是不是一个大集群,每个客户可以创建很多小的集群。集群之间的资源隔离依赖虚拟化技术。 这么做的好处就是 可控,专项专用,安全,且不同客户之间可以从虚拟机层面做到完全不可见。
对hadoop、spark来讲,由于往往code会依赖一些第三方的so等,客户可以通过引导操作安装所需要的依赖文件。
2、安全措施,我们建议在VPC网络中,这样默认就安全隔离了。另外,在有网络白名单隔离。
3、在离线计算中,主要就是hadoop/spark + OSS 存储计算分离的。集群方面有 linux、软件层面的优化。
4、由于大数据,特别是需要写code的hadoop、spark及机器学习方面,确实有不少的门槛。目前emr提供作业平台,方便调度,监控报警,下一个版本会在作业平台集成交互式作业功能,可以直接写hivesql及sparkcode等。 说实在的,如果啥都不懂,就想玩转大数据,目前看几乎不可能,还是需要对自身的业务有较高的抽象,再通过一系列案例及实践上手的,一般的公司都需要专人负责大数据平台的。
5、比aws emr来讲,本身aws emr没有提供作业平台,对运维平台方便没有较多的功能。emr提供作业平台、运维平台,后期会提供专家系统的。从 源代码来讲,aws emr并没有投入过多,aliyun emr会有专人投入的。
6、节约费用主要体现在 emr+oss降低费用、合理按需运行、hadoop/spark本身的优化,作业自身的优化。后续可以提供专门的文章,上次在 https://yq.aliyun.com/articles/60706?spm=5176.8091938.0.0.2lfTxw 中也讲了一些。

一个亿目标 回复

有道理

评论
3

数梦梅西 已获得淘公仔 复制链接去分享

1) 和ODPS相比的优势劣势在哪里? 用户会关心这两者的对比。比如做数仓来讲,ODPS和Hive在facade上其实大同小异;
2) 使用的是否是开源版本还是阿里云修改过的版本?用户是否可以自己选择自己定制的版本?
3) 虚拟化的集群,我理解更适合跑离线作业,重点应该还是hive和MapReduce。不知道咱们EMR在投入上是否有倾斜。
4) 建议引入类似zeppelin的系统(也许有了,我不太清楚:));
5) 有没有考虑用户自己有集群,同时也用EMR,如何打通?

开源大数据EMR 回复

👍

封神 回复

问题比较多,先奖励一个淘公仔,一看就是资深的用户。
1、ODPS、EMR都是阿里云提供的产品,一个是自主研发,一个是对接开源。两者基本服务不同的群体,如果客户对开源比较有情结,不想被阿里云绑架,想用spark,那一般选择emr,如果线下有hadoop集群,一般推荐emr。

ODPS sql在尽量跟hive做兼容,但是这个本事就是比较难的,hive本身不通版本都不兼容,且语法别多,很难完全兼容的。

2、是阿里云自己修改过的版本,但是api不会修改的。 用户不可以自己定制版本的。

3、云上为什么一定要计算。
一般企业白天产生数据,晚上需要分析数据。阿里云iass,需要把水位提高,就必须要在云上做大数据服务。
对于云上,其实 流式计算、内存计算、Hbase存储 比离线更加合适。离线很大程度上比较看重 IO,但是这个不是不能权衡的。基于ecs、oss也在低成本下也可以提供大数据方案的。

4、目前已经有zeppelin系统了,emr也在做交互式的系统。

5、很多客户都有emr+自己的集群。很大程度上这个是过度方案,后续一般会全部迁移到emr的。 打通就是ecs在同一个安全组就可以了,比较简单。

评论
2

sh_jepson 已获得聆听专属T恤衫 复制链接去分享

这两个月里将公司日志ETL系统,用EMR来代替,不仅仅节约机器资源,而且更加方便管理,同时还能有效的监控job状态以及集群的状态的DashBoard,以及预警功能等等,更加的高大上。希望ALIYun EMR在未来之路越走越远!

sh_jepson 回复

还有就是希望能够集群部署时,能够可以选特定版本,因为往往最新版本,公司程序要改代码和jar来改善兼容性,这样的时间成本有时很大。另外还有一个,能不能提供一个空壳给我们,我们自己来第一次装好集群即可,然后像搞个镜像啥的,然后根据调度,去启用执行计划。还有,作业这块,由于我们作业很多,能不能搞个分组属性,因为我现在只能在作业名称上写 stage 和 product关键词来区别。

封神 回复

感谢提了这么多好的建议,这些我们都会考虑的。

目前emapreduce也是贴着用户的需求做起来的。

sh_jepson 回复
回复@封神:

1.执行计划的作业要能够并行配置
2.作业任务失败了,要能够 有 retry 3次机制
3.执行计划也可以作为另外一个执行计划的作业来配置
4.作业现在创建,都是放在一起,无非有效区别,最好作业归一类,外面套一层 project ,或者标签或者分组,来区别 管理
5.希望添加邮件预警

评论
2

frank888 已获得优酷VIP季卡 复制链接去分享

Hadoop加上阿里云,碰撞出酸爽的火花。 阿里云E-MapReduce 极大降低了中小企业部署大数据应用的门槛,希望文档、案例更加丰富些

封神 回复

感谢支持,目前文档也在不断补充中,案例也在补充中
虽然emr发展较快,但是我们还是会及时补充文档的

评论
1

yibu 已获得优酷VIP季卡 复制链接去分享

问题1:多租户
从封神的回答来看还是走类似databricks的每套集群一个租户的思路,这种粒度似乎略粗,而且太多小集群无法解决大量数据的情况下数据的隔离、分享的需求。有没有考虑引入apache ranger这种权限控制的工具呢?对hdfs、hive、yarn都可以做到比较好的权限控制。

问题2:EMR上的HDFS还是3个副本吗?云盘自己有备份,讲道理的话,是不需要的。

问题3:从数据开发的角度,目前阿里云的数据产品几乎可以涵盖所有的需求,看上去EMR似乎“政治不正确”。如何面对云上的ODPS的竞争呢?

封神 回复

1、emr本身就是为中小公司服务的,超过1000台集群的规模的公司,emr一般不服务。
对于一个公司内部,一般是不需要隔离的,阿里巴巴hadoop集群到了10000台,也没有隔离的。
可以在emr里面启动一个100台规模的集群,满足需求。 特别是在很多公司,都不仅仅一个集群的。
另外,由于emr可以提供按需跑的能力,很多企业的作业类型在emr,可以按需跑,无需在固定集群跑,这样可以节约资源。

还有不同企业之间,目前来讲,一般没有公司在共享数据的。 即使有,也可以通过oss共享,这样就没有大集群的理论基础了。

2、目前hdfs是2个副本的,不是3个。

3、必须要认识到 阿里云数据产品 跟 odps是两码事情。

可以认为:
大数据产品 下面既可以emr也可以odps。未来会跟大数据产品有一些合作的。

EMR不存在”政治不正确“ 的说话,对于公有云,客户是第一,客户需要开源的方案,不希望被阿里云绑架,所以阿里云需要提供hadoop、spark。 emr跟odps也不是竞争关系,是互相补充,共同服务客户的。

还有就是关于在云上提供大数据服务,是非常正确的一条路,因为 对于iass,是云计算公司投入最大的资产,其上基本在白天跑业务产生日志数据,晚上分析,如果没有分析,那晚上的资源岂不是浪费了,为了让水位提升,必须提供相应的大数据服务。odps目前是自建物理集群,此点很难跟iass融合,这将从成本上,是一个比较大的问题。

评论
1

1277376506016181 已获得淘公仔 复制链接去分享

个人理解;Hadoop现在已经广泛应用于包 括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计的CPU。 Hadoop 作为基础云计算平台 ,包括了超过 100 个的用户可配置参数 ( 版本 0.19.2) , 而这些参数中很大一部分对所部署的 Hadoop 系统性能具有极大的影响。 平台即服务 (PaaS)主要关注软件框架或服务,提供在基础设施中进行“云”计算所用的 API。Apache Hadoop作为PaaS构建在虚拟主机上,作为云计算平台。 基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop 已被全球几大IT公司用作其云计算环境中的重要基础软件,如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。

封神 回复

评论
1

老徐_it 已获得聆听专属T恤衫 复制链接去分享

hadoop的趋势不可替代,但企业转向hadoop还是需要不断的转型实践,找到符合自己企业的道路。

封神 回复

嗯,hadoop是大数据技术的代表,云正提供一个可以落地的平台。 当然每个企业需要根据自身的特点应用大数据。

评论
1

HDD 复制链接去分享

Hadoop,大数据,云,可视化这些应该有机的结合起来,可以玩出新的东西,记得阿里有句话,为了无法计算的价值,在大数据的前提下,真的可以做好多事情,感受过阿里云的数加平台,确实不错,但是希望接口可以更加open

封神 回复

赞,emapreduce确实就是把云+大数据相关结合起来提供一定的优势。

评论
1

水麒麟哈 复制链接去分享

Hadoop作为大数据处理平台的一种,用ECS在云上再虚拟化一层性能上肯定是受不了的,尤其是计算和存储分离成为主流形态,可以基于E-Mapreduce 的Hadoop组建作为大数据应用的基础设施,这样就利用了互联网企业的全基础设施能力,后续基于GPU的加速都可以及时更新

封神 回复

1、用ECS在云上再虚拟化一层性能上肯定是受不了的 目前阿里云有数十万 客户在跑,性能有一定的消耗,但是肯定也会是平台承担,给出1cpu、2g的能力跟物理机相当。不能受不了的。

存储计算分离可以看我们的相关分享的。

2、第二点是的,GPU可以加速计算密集型的任务。

评论
1

裴铭坤 复制链接去分享

hadoop上云和自己部署的hadoop集群有哪些不一样? 想要在云上hadoop集群的基础上去扩展spark是否方便?未来5年hadoop与spark在云上的应用会是怎么样呢?

封神 回复

hadoop上云和自己部署的hadoop集群有哪些不一样?
1、就环境本身来讲,线下物理机需要自己运维 ,在云上,如果在emapreduce里面不需要管运维的。
2、云上提供 更多的灵活性,集群的规格比较多,可以自由扩展规模
3、可以按需运行,运行完成,释放资源,做到成本最低。
4、可以跟云上的组件互动 比如:OSS等其他的服务一起
另外 如果业务系统上云了,那么一般大数据分析系统也会上云的。数据导下来的成本还是比较高的。

想要在云上hadoop集群的基础上去扩展spark是否方便?
在云上,比如emapreduce里面,已经提供了性能优化的Spark版本,能满足大部分的需求。也提供引导操作,让客户自己编译Spark需求。 比如客户可以自己编译一个spark版本,新建集群时,通过引导操作安装spark,再运行作业。

未来5年hadoop与spark在云上的应用会是怎么样呢?
可以肯定的是,云上的Hadoop、spark肯定是一个趋势,以后会越来越多的公司会选择公共云来运行大数据业务。
5年后,大数据主流是不是hadoop、spark,这个不好说,但是不管是啥,肯定也是在云上运行的。

评论
0

啊里鹏 复制链接去分享

就因为没有买到v票,包里装了张纸,写着,《马总:借您五分钟,还您五个亿,》被公安扣留带离会场关了一天才出来。

封神 回复

……

bones 回复
回复@封神:

。。。。

评论
1

zzz鑫 复制链接去分享

到现在为止,还没有使用过阿里的Hadoop,不过在自学相关技术

封神 回复
评论
1

搞么罗 复制链接去分享

hadoop上云感觉是未来的趋势,目前我公司也在这方便的调研,易用性及扩展性是没有问题,我们比较看重对比物理机的性能,不太清楚物理机的性能,不知道其他公司有没有经验?

封神 回复

对于性能来讲,我们不能一概而论。

如果给你100台物理机,再虚拟化跑hadoop,跟在原来的100台上直接跑hadoop的,性能对比 虚拟化肯定有一定的消耗的。

凡是都有但是:

对于云计算来讲,云提供的是 计算能力,比如 4cpu 32g,则真正就有4cpu32g的能力,跟物理机相当。对于这个能力的价格,肯定是 综合了 云上便利、弹性、无须负责运维等特点的,给出的。

对于大数据来讲,一般性能主要体现在 硬件上。
cpu、内存、网络的性能跟 物理机基本差不多。

对于磁盘,由于云上一般提供的是云盘(如果是本地磁盘就差不多了),相对比物理机的磁盘,有一定的损失。但是带来的好处就是 数据可以不丢失,及极大分析的灵活性。

另外:大数据的作业类型,比如:机器学习、批处理、流式计算等对磁盘的要求较低,往往对cpu的要求过高。

对于 简单的分析,io密集型的作业,也可以提供本地磁盘解决的。

再者,云上可以提供按需计费(一般简单的分析基本可以按需、晚上跑),运行就释放的来保证低成本。

还有:

对于纯粹的 云,如果只有业务,则 白天的业务负载较多,晚上也比较低(因为晚上大家睡觉了)。
这个也是很多大公司内部也要搞云计算的原因。

而 很多离线大数据分析,可以在晚上运行,这样 可以把云上的资源,晚上按照一定的折扣提供给 大数据,比如E-MapReduce服务,这样对 阿里云(整体负载提高、利润提高)、对客户都有好处(成本低)。

总之,不能单纯的看待成本这个事情,需要辩证、多方位看待。

评论
1

ruyike 复制链接去分享

未来就是云计算、大数据、智能化的时代,要么你来引领这个时代的趋势,要么你紧跟趋势,骑在它的背上,带你走向未来,阿里云就是未来趋势,我们愿意在背上颠簸,因为我们知道这对我们来说是当下最好的选择😊

封神 回复

对于中小企业来讲,云极大降低了技术的准入门槛。特别对于hadoop,有一个很多的落地平台,那就是云。

评论
1

我爱芝麻 复制链接去分享

其实上半年就发展阿里云有emapreduce这个服务,用了下,当时忙没有搞大数据平台;最近想搞下大数据平台,最近再看了下,感觉还可以,我想问下,这个产品后续怎么发展呢?

封神 回复

emapreduce这个产品是阿里云15年开始推出的,基于hadoop上云的产品,其中也包括spark、hbase、storm、presto等组件。主要功能在集群本身、作业平台、运维平台、专家系统三个方面。

作业平台就是 作业的编排,监控等,下一个版本会上交互式作业。
运维平台就是 集群运维、异常报警等。
专家系统,待建设,简单来讲就是 帮客户使用好hive、spark,给出掉优建议。

集群本身 从软件、linux系统、jvm/jdk 有一些优化及掉优,不改动api

另外就是跟 阿里云产品的各种衔接,比如:hadoop+oss、spark Streaming+logservice等。

评论
0

1727277188591721 复制链接去分享

大家好

封神 回复

评论
0

廖宙基 复制链接去分享

我在上大二,程序员修养什么的谈不上,但是我觉得自学是一件很开心的事。去网上寻找各种资源资料,去qq群不厌其烦地问一些“白痴”问题,去知乎、csdn、sf上面看各路大神的吐槽。我觉得对一门技术的研究,不仅仅停留在学会使用,更多的是了解它的不足,它的局限性,它坎坷的发展历史,它背后的工作团队,以及它面临没落时的无奈。代码永远都不会无聊,我希望能不忘初心走完大学。

封神 回复

嗯,在大二就由此想法十分不错,想当初,我大二还在傻傻地申请qq号呢。

技术本身路很长,计算机科学的意义在于都会有新的东西出现,悲剧在于很多人只会深入到某一项,这项技术是否会被社会认可就靠运气了。所以 一定要展望未来,也要脚踏实地。

评论
0

1462776924647901 复制链接去分享

加油

封神 回复

谢谢

评论
0

adsn 复制链接去分享

还没有用过。互联网小白

封神 回复

可以学习下

评论
0

李伟刚 复制链接去分享

我觉得阿里云会为以后正在创业的90后提高它的最高价值!

封神 回复

是的,谢谢

评论
3