Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

开源大数据EMR 2020-02-14 18:21:06 浏览1409
展开阅读全文

作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

共同点

定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。与数据库不同的是,这些 meta 文件是与数据文件一起存放在存储引擎中的,用户可以直接看到。这种做法直接继承了大数据分析中数据对用户可见的传统,但是无形中也增加了数据被不小心破坏的风险。一旦某个用户不小心删了 meta 目录,表就被破





网友评论

登录后评论
0/500
评论
开源大数据EMR
+ 关注
所属团队号: Apache Spark中国技术社区