云栖问答

找不到答案?去提问题

2016-09-20 20:27:01

市面上很多大数据框架,为什么要自研大数据平台


来源: [直播] 大规模计算平台研究与实战

专家你好,正在听您的演讲。特别想了解下,现在有Hadoop、Spark、Storm等热门的大数据框架,你们为什么还会去自研大数据平台?

4个回答

3

林伟

有以下考虑:第一,我们有众多的开源的大数据框架,比如hadoop,spark,storm,大家基本上是在虚拟集群中去部署运用的,这些计算框架较少考虑多租户的使用场景,需要依赖虚拟机去做各种资源的隔离和共享,但是这种方式对于计算任务太重并且粒度不够小和灵活,对于阿里内部本身这么大体量的计算任务来说,从成本,性能,和规模上都达不到目标,这是为什么各个大公司内部都有一个自研的大数据平台,比如Azure, Google

1

liu_andy

感谢您的提问。 的确现在有很多开源的软件,阿里第一天处理大数据时也是使用的Hadoop,当时阿里Hadoop集群服务器数量超过了2000台。随着集团数据业务的增长,2000台无法满足数据处理的需要了,再向上扩展机器的时候,Hadoop已经无法支持跨机房数据存储和计算的需求。 同时阿里在使用Hadoop的时候,也遇到了一些问题,像数据安全,今天MaxCompute的权限可以做到字段级授权。在日常数据业务中,不同的用户也需要流计算、机器学习算法,这些作业都需要混合运行在同一个集群中。 如何为作业合理的分配资源、进行作业管理,也是在Hadoop时代无法很好的实现的。我们吸收了开源软件的优点,同时结合复杂的数据业务,在这种情况下 MaxCompute诞生了。MaxCompute是阿里的攻城獅们使用C++代码一行一行写出来的,性能要比开源的软件高很多。 去年MaxCompute参加了Sort bench mark 大赛,用377秒完成100TB数据的排序,以优异的成绩获取了第一名,而第二名用了1378秒。。

1

林伟

第二,开源系统本身也需要完善,在规模上,性能上,功能上,我们内部对于大数据计算有些更高的要求,我们希望通过这个更好需求下去推动系统的提高,并且开源还缺乏一些配套组件,比如数据仓库,数据质量管理,部署,监控。所以我们希望我们能够完善这些,从而提供更完整的服务体验,所以从这个角度上,MaxCompute提供更像bigquery是一个开放共享(区别于用虚拟器加开源的软件包)计算服务平台,当然我们也努力把我们的工作比如optimization等回馈社区,并且从api接口上去兼容社区,从而帮助我们用户更加好的来使用我们的服务

1

林伟

第三,就是做到用户精细控制数据访问控制,从而做到最大程度保护用户数据,同时又可以灵活分享发布自己的数据来让服务商来根据这些数据去创造更好用户服务。在这个系统上,我们还打造数加等多款数据加工平台,提供智能推荐,智能语音,图像视屏处理,机器学习,数据流控制,监控,数据发现,任务调度等等,从而能够帮助用户更好的去处理他的数据

1
GO
3002
浏览
0
收藏
邀请他人回答