作者: 云栖号资讯小哥
4095人浏览
在开源大数据领域,存储/计算分离已经成为共识和标准做法,数据湖架构成为大数据平台的首要选择。基于这一范式,大数据架构师需要考虑三件事情:
第一,选择什么样的存储系统做数据湖(湖存储)?
第二,计算和存储分离后,出现了性能瓶颈,计算如何加速和优化(湖加速)?
第三,针对需要的计算场景,选择什么样的计算引擎(湖计算)?
湖存储可以基于我们熟悉的HDFS,在公共云上也可以选择对象存储,例如阿里云OSS。
大数据
架构
OSS
hdfs
hadoop
性能
集群
对象存储
带宽
存储