Hadoop经过10年的发展,目前已经成为大数据技术的标准;云计算也发展了将近10年,已经被越来越多的企业接受;
在企业自己采购自己的年代,很多企业都会经历过业务部署物理机,再虚拟化,再跟大数据混合部署。
企业把业务系统与大数据系统在云上部署服务,Hadoop上云,一体化解决问题也是一大趋势。
Hadoop加上云能碰出怎样的火花呢?
欢迎大家提出问题或者自己的观点。
淘公仔 x 3
优酷VIP季卡 x 2
聆听专属T恤衫 x 2
sures
已获得淘公仔
复制链接去分享
1、EMR的多租户是怎么解决的?可否具体点解释。
2、EMR安全措施,如何打消客户的顾虑?
3、EMR在典型行业场景应用方面做了哪些针对性的工作
4、EMR易用性方面的举措,如何尽可能的做到让不太懂大数据的人也能使用?
5、EMR和竞品的优势?比如亚马逊
6、EMR在节省费用方面,虽然以往讲座中有提到,但不够清楚。将来能否写一系列博文,具体描述一下。相信对EMR推广和减轻咨询工作量都有益。
数梦梅西
已获得淘公仔
复制链接去分享
1) 和ODPS相比的优势劣势在哪里? 用户会关心这两者的对比。比如做数仓来讲,ODPS和Hive在facade上其实大同小异;
2) 使用的是否是开源版本还是阿里云修改过的版本?用户是否可以自己选择自己定制的版本?
3) 虚拟化的集群,我理解更适合跑离线作业,重点应该还是hive和MapReduce。不知道咱们EMR在投入上是否有倾斜。
4) 建议引入类似zeppelin的系统(也许有了,我不太清楚:));
5) 有没有考虑用户自己有集群,同时也用EMR,如何打通?
问题比较多,先奖励一个淘公仔,一看就是资深的用户。
1、ODPS、EMR都是阿里云提供的产品,一个是自主研发,一个是对接开源。两者基本服务不同的群体,如果客户对开源比较有情结,不想被阿里云绑架,想用spark,那一般选择emr,如果线下有hadoop集群,一般推荐emr。
ODPS sql在尽量跟hive做兼容,但是这个本事就是比较难的,hive本身不通版本都不兼容,且语法别多,很难完全兼容的。
2、是阿里云自己修改过的版本,但是api不会修改的。 用户不可以自己定制版本的。
3、云上为什么一定要计算。
一般企业白天产生数据,晚上需要分析数据。阿里云iass,需要把水位提高,就必须要在云上做大数据服务。
对于云上,其实 流式计算、内存计算、Hbase存储 比离线更加合适。离线很大程度上比较看重 IO,但是这个不是不能权衡的。基于ecs、oss也在低成本下也可以提供大数据方案的。
4、目前已经有zeppelin系统了,emr也在做交互式的系统。
5、很多客户都有emr+自己的集群。很大程度上这个是过度方案,后续一般会全部迁移到emr的。 打通就是ecs在同一个安全组就可以了,比较简单。
sh_jepson
已获得聆听专属T恤衫
复制链接去分享
这两个月里将公司日志ETL系统,用EMR来代替,不仅仅节约机器资源,而且更加方便管理,同时还能有效的监控job状态以及集群的状态的DashBoard,以及预警功能等等,更加的高大上。希望ALIYun EMR在未来之路越走越远!
frank888
已获得优酷VIP季卡
复制链接去分享
Hadoop加上阿里云,碰撞出酸爽的火花。 阿里云E-MapReduce 极大降低了中小企业部署大数据应用的门槛,希望文档、案例更加丰富些
yibu
已获得优酷VIP季卡
复制链接去分享
问题1:多租户
从封神的回答来看还是走类似databricks的每套集群一个租户的思路,这种粒度似乎略粗,而且太多小集群无法解决大量数据的情况下数据的隔离、分享的需求。有没有考虑引入apache ranger这种权限控制的工具呢?对hdfs、hive、yarn都可以做到比较好的权限控制。
问题2:EMR上的HDFS还是3个副本吗?云盘自己有备份,讲道理的话,是不需要的。
问题3:从数据开发的角度,目前阿里云的数据产品几乎可以涵盖所有的需求,看上去EMR似乎“政治不正确”。如何面对云上的ODPS的竞争呢?
1、emr本身就是为中小公司服务的,超过1000台集群的规模的公司,emr一般不服务。
对于一个公司内部,一般是不需要隔离的,阿里巴巴hadoop集群到了10000台,也没有隔离的。
可以在emr里面启动一个100台规模的集群,满足需求。 特别是在很多公司,都不仅仅一个集群的。
另外,由于emr可以提供按需跑的能力,很多企业的作业类型在emr,可以按需跑,无需在固定集群跑,这样可以节约资源。
还有不同企业之间,目前来讲,一般没有公司在共享数据的。 即使有,也可以通过oss共享,这样就没有大集群的理论基础了。
2、目前hdfs是2个副本的,不是3个。
3、必须要认识到 阿里云数据产品 跟 odps是两码事情。
可以认为:
大数据产品 下面既可以emr也可以odps。未来会跟大数据产品有一些合作的。
EMR不存在”政治不正确“ 的说话,对于公有云,客户是第一,客户需要开源的方案,不希望被阿里云绑架,所以阿里云需要提供hadoop、spark。 emr跟odps也不是竞争关系,是互相补充,共同服务客户的。
还有就是关于在云上提供大数据服务,是非常正确的一条路,因为 对于iass,是云计算公司投入最大的资产,其上基本在白天跑业务产生日志数据,晚上分析,如果没有分析,那晚上的资源岂不是浪费了,为了让水位提升,必须提供相应的大数据服务。odps目前是自建物理集群,此点很难跟iass融合,这将从成本上,是一个比较大的问题。
1277376506016181
已获得淘公仔
复制链接去分享
个人理解;Hadoop现在已经广泛应用于包 括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计的CPU。 Hadoop 作为基础云计算平台 ,包括了超过 100 个的用户可配置参数 ( 版本 0.19.2) , 而这些参数中很大一部分对所部署的 Hadoop 系统性能具有极大的影响。 平台即服务 (PaaS)主要关注软件框架或服务,提供在基础设施中进行“云”计算所用的 API。Apache Hadoop作为PaaS构建在虚拟主机上,作为云计算平台。 基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop 已被全球几大IT公司用作其云计算环境中的重要基础软件,如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。
老徐_it
已获得聆听专属T恤衫
复制链接去分享
hadoop的趋势不可替代,但企业转向hadoop还是需要不断的转型实践,找到符合自己企业的道路。
Hadoop,大数据,云,可视化这些应该有机的结合起来,可以玩出新的东西,记得阿里有句话,为了无法计算的价值,在大数据的前提下,真的可以做好多事情,感受过阿里云的数加平台,确实不错,但是希望接口可以更加open
赞,emapreduce确实就是把云+大数据相关结合起来提供一定的优势。
hadoop上云和自己部署的hadoop集群有哪些不一样? 想要在云上hadoop集群的基础上去扩展spark是否方便?未来5年hadoop与spark在云上的应用会是怎么样呢?
hadoop上云和自己部署的hadoop集群有哪些不一样?
1、就环境本身来讲,线下物理机需要自己运维 ,在云上,如果在emapreduce里面不需要管运维的。
2、云上提供 更多的灵活性,集群的规格比较多,可以自由扩展规模
3、可以按需运行,运行完成,释放资源,做到成本最低。
4、可以跟云上的组件互动 比如:OSS等其他的服务一起
另外 如果业务系统上云了,那么一般大数据分析系统也会上云的。数据导下来的成本还是比较高的。
想要在云上hadoop集群的基础上去扩展spark是否方便?
在云上,比如emapreduce里面,已经提供了性能优化的Spark版本,能满足大部分的需求。也提供引导操作,让客户自己编译Spark需求。 比如客户可以自己编译一个spark版本,新建集群时,通过引导操作安装spark,再运行作业。
未来5年hadoop与spark在云上的应用会是怎么样呢?
可以肯定的是,云上的Hadoop、spark肯定是一个趋势,以后会越来越多的公司会选择公共云来运行大数据业务。
5年后,大数据主流是不是hadoop、spark,这个不好说,但是不管是啥,肯定也是在云上运行的。
到现在为止,还没有使用过阿里的Hadoop,不过在自学相关技术
hadoop上云感觉是未来的趋势,目前我公司也在这方便的调研,易用性及扩展性是没有问题,我们比较看重对比物理机的性能,不太清楚物理机的性能,不知道其他公司有没有经验?
对于性能来讲,我们不能一概而论。
如果给你100台物理机,再虚拟化跑hadoop,跟在原来的100台上直接跑hadoop的,性能对比 虚拟化肯定有一定的消耗的。
凡是都有但是:
对于云计算来讲,云提供的是 计算能力,比如 4cpu 32g,则真正就有4cpu32g的能力,跟物理机相当。对于这个能力的价格,肯定是 综合了 云上便利、弹性、无须负责运维等特点的,给出的。
对于大数据来讲,一般性能主要体现在 硬件上。
cpu、内存、网络的性能跟 物理机基本差不多。
对于磁盘,由于云上一般提供的是云盘(如果是本地磁盘就差不多了),相对比物理机的磁盘,有一定的损失。但是带来的好处就是 数据可以不丢失,及极大分析的灵活性。
另外:大数据的作业类型,比如:机器学习、批处理、流式计算等对磁盘的要求较低,往往对cpu的要求过高。
对于 简单的分析,io密集型的作业,也可以提供本地磁盘解决的。
再者,云上可以提供按需计费(一般简单的分析基本可以按需、晚上跑),运行就释放的来保证低成本。
还有:
对于纯粹的 云,如果只有业务,则 白天的业务负载较多,晚上也比较低(因为晚上大家睡觉了)。
这个也是很多大公司内部也要搞云计算的原因。
而 很多离线大数据分析,可以在晚上运行,这样 可以把云上的资源,晚上按照一定的折扣提供给 大数据,比如E-MapReduce服务,这样对 阿里云(整体负载提高、利润提高)、对客户都有好处(成本低)。
总之,不能单纯的看待成本这个事情,需要辩证、多方位看待。
其实上半年就发展阿里云有emapreduce这个服务,用了下,当时忙没有搞大数据平台;最近想搞下大数据平台,最近再看了下,感觉还可以,我想问下,这个产品后续怎么发展呢?
我在上大二,程序员修养什么的谈不上,但是我觉得自学是一件很开心的事。去网上寻找各种资源资料,去qq群不厌其烦地问一些“白痴”问题,去知乎、csdn、sf上面看各路大神的吐槽。我觉得对一门技术的研究,不仅仅停留在学会使用,更多的是了解它的不足,它的局限性,它坎坷的发展历史,它背后的工作团队,以及它面临没落时的无奈。代码永远都不会无聊,我希望能不忘初心走完大学。
感谢提了这么多问题,相信也是很多其它用户的疑问。
1、emr本身是多集群模式的,也就是不是一个大集群,每个客户可以创建很多小的集群。集群之间的资源隔离依赖虚拟化技术。 这么做的好处就是 可控,专项专用,安全,且不同客户之间可以从虚拟机层面做到完全不可见。
对hadoop、spark来讲,由于往往code会依赖一些第三方的so等,客户可以通过引导操作安装所需要的依赖文件。
2、安全措施,我们建议在VPC网络中,这样默认就安全隔离了。另外,在有网络白名单隔离。
3、在离线计算中,主要就是hadoop/spark + OSS 存储计算分离的。集群方面有 linux、软件层面的优化。
4、由于大数据,特别是需要写code的hadoop、spark及机器学习方面,确实有不少的门槛。目前emr提供作业平台,方便调度,监控报警,下一个版本会在作业平台集成交互式作业功能,可以直接写hivesql及sparkcode等。 说实在的,如果啥都不懂,就想玩转大数据,目前看几乎不可能,还是需要对自身的业务有较高的抽象,再通过一系列案例及实践上手的,一般的公司都需要专人负责大数据平台的。
5、比aws emr来讲,本身aws emr没有提供作业平台,对运维平台方便没有较多的功能。emr提供作业平台、运维平台,后期会提供专家系统的。从 源代码来讲,aws emr并没有投入过多,aliyun emr会有专人投入的。
6、节约费用主要体现在 emr+oss降低费用、合理按需运行、hadoop/spark本身的优化,作业自身的优化。后续可以提供专门的文章,上次在 https://yq.aliyun.com/articles/60706?spm=5176.8091938.0.0.2lfTxw 中也讲了一些。
有道理