专家你好,正在听您的演讲。特别想了解下,现在有Hadoop、Spark、Storm等热门的大数据框架,你们为什么还会去自研大数据平台?
感谢您的提问。 的确现在有很多开源的软件,阿里第一天处理大数据时也是使用的Hadoop,当时阿里Hadoop集群服务器数量超过了2000台。随着集团数据业务的增长,2000台无法满足数据处理的需要了,再向上扩展机器的时候,Hadoop已经无法支持跨机房数据存储和计算的需求。 同时阿里在使用Hadoop的时候,也遇到了一些问题,像数据安全,今天MaxCompute的权限可以做到字段级授权。在日常数据业务中,不同的用户也需要流计算、机器学习算法,这些作业都需要混合运行在同一个集群中。 如何为作业合理的分配资源、进行作业管理,也是在Hadoop时代无法很好的实现的。我们吸收了开源软件的优点,同时结合复杂的数据业务,在这种情况下 MaxCompute诞生了。MaxCompute是阿里的攻城獅们使用C++代码一行一行写出来的,性能要比开源的软件高很多。 去年MaxCompute参加了Sort bench mark 大赛,用377秒完成100TB数据的排序,以优异的成绩获取了第一名,而第二名用了1378秒。。