备案控制台

开发者社区

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

Apache iceberg：Netflix 数据仓库的基石

2020-02-28 6054

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

本文由 Ryan Blue 分享，他在 Netflix 从事开源数据项目，是 Apache Iceberg 的最初创建者之一，也是 Apache Spark, Parquet, 以及 Avro 贡献者。

Apache Iceberg 是由 Netflix 开发开源的，其于 2018年11月16日进入 Apache 孵化器，是 Netflix 公司数据仓库基础。在功能上和我们熟悉的 Delta Lake 或者 Apache Hudi 类似，但各有优缺点。
任何东西的诞生都是有其背后的原因，那么为什么 Netflix 需要开发 Apache Iceberg？

在 Netflix，他们希望有更智能的处理引擎，比如有 CBO 优化，更好的 Join 实现，缓存结果集以及物化视图等功能。同时，他们也希望减少人工维护数据。

Netflix 面临的问题包括：1、不安全的操作随处可见；2、和对象存储交互有时候会出现很大的问题；3、无休止的可扩展性挑战。
为了解决这些问题，Iceberg 诞生了。那么 Iceberg 是什么？

iceberg 是一种可伸缩的表存储格式，内置了许多最佳实践。

什么？是一种存储格式？可使我们已经有 Parquet，Avro 以及 ORC 这些格式了，为什么还要设计一种新格式？

iceberg 允许我们在一个文件里面修改或者过滤数据；当然多个文件也支持这些操作。为了展示这点，我们来看看一张 Hive 表。

Hive 表的核心思想是把数据组织成目录树，如上所述。

如果我们需要过滤数据，可以在 where 里面添加分区相关的信息。

带来的问题是如果一张表有很多分区，我们需要使用 HMS（Hive MetaStore）来记录这些分区，同时底层的文件系统（比如 HDFS）仍然需要在每个分区里面记录这些分区数据。

这就导致我们需要在 HMS 和文件系统里面同时保存一些状态信息；因为缺乏锁机制，所以对上面两个系统进行修改也不能保证原子性。

当然 Hive 这样维护表也不是没有好处。这种设计使得很多引擎（Hive、Spark、Presto、Flink、Pig）都支持读写 Hive 表，同时支持很多第三方工具。简单和透明使得 Hive 表变得不可或缺的。

Iceberg 的目标包括：1、成为静态数据交换的开放规范，维护一个清晰的格式规范，支持多语言，支持跨项目的需求等。

2、提升扩展性和可靠性。能够在一个节点上运行，也能在集群上运行。所有的修改都是原子性的，串行化隔离。原生支持云对象存储，支持多并发写。

3、修复持续的可用性问题，比如模式演进，分区隐藏，支持时间旅行、回滚等。

Iceberg 主要设计思想：记录表在所有时间的所有文件，和 Delta Lake 或 Apache Hudi 一样，支持 snapshot，其是表在某个时刻的完整文件列表。每一次写操作都会生成一个新的快照。

读取数据的时候使用当前的快照，Iceberg 使用乐观锁机制来创建新的快照，然后提交。

Iceberg 这么设计的好处是：

所有的修改都是原子性的；
没有耗时的文件系统操作；
快照是索引好的，以便加速读取；
CBO metrics 信息是可靠的；
更新支持版本，支持物化视图。

Iceberg 在 Netflix 生产环境维护着数十 PB 的数据，数百万个分区。对大表进行查询能够提供低延迟的响应。

生产环境中使用 Flink 管道在 3 个 AWS regions 写数据。Lift 服务将数据移到一个 region。Merge 服务对小文件进行合并。

可用性方面：回滚是家常便饭。

未来工作：1、支持 Spark 向量化以便实现快速的 bulk read，Presto 向量化已经支持。2、行级别的删除，支持 MERGE INTO 等。

推荐相关阅读：
[Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析
](https://developer.aliyun.com/article/744920?spm=a2c6h.12873581.0.dArticle744920.592a3a183ThfM2&groupCode=apachespark)

本文转载自公众号：过往记忆大数据
原文链接：https://mp.weixin.qq.com/s/acWcoZ25zDXetA3ewypG2g

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区，定期推送精彩案例，技术专家直播，问答区近万人Spark技术同学在线提问答疑，只为营造纯粹的Spark氛围，欢迎钉钉扫码加入！

对开源大数据和感兴趣的同学可以加小编微信（下图二维码，备注“进群”）进入技术交流微信群。

文章标签：

开源大数据平台 E-MapReduce

自然语言处理

流计算

分布式计算

SQL

对象存储

Spark

Apache

HIVE

存储

大数据

关键词：

Apache数据仓库

Apache iceberg

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

开源大数据EMR

目录

相关文章

jerrywangsap

|

6月前

|

存储缓存算法

Apache Iceberg 表有哪些性能优化方式

Apache Iceberg 表有哪些性能优化方式

jerrywangsap

113 0 0

大数据流动

|

3月前

|

存储关系型数据库 Apache

Apache Doris 实时数据仓库的构建与技术选型方案

Apache Doris 实时数据仓库的构建与技术选型方案

大数据流动

171 0 0

架构师研究会

|

11月前

|

SQL 存储分布式计算

「大数据系列」:Apache Hive 分布式数据仓库项目介绍

「大数据系列」:Apache Hive 分布式数据仓库项目介绍

架构师研究会

173 0 0

张家锋

|

SQL 分布式计算资源调度

Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询

这篇教程将展示如何使用 Flink CDC + Iceberg + Doris 构建实时湖仓一体的联邦查询分析，Doris 1.1版本提供了Iceberg的支持，本文主要展示Doris和Iceberg怎么使用，同时本教程整个环境是都基于伪分布式环境搭建，大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。

张家锋

2001 0 3

张家锋

|

消息中间件 SQL 运维

应用实践 | 数仓体系效率全面提升！同程数科基于 Apache Doris 的数据仓库建设

同程数科成立于 2015 年，是同程集团旗下的旅游产业金融服务平台。2020 年，同程数科基于 Apache Doris 丰富的数据接入方式、优异的并行运算能力、极简运维等特性，引入 Apache Doris 进行数仓架构2.0 的搭建。本文详细讲述了架构1.0 到 2.0 的演进过程及 Doris 的应用实践，希望对大家有所帮助

张家锋

954 0 0

码农工程师

|

SQL 存储分布式计算

Apache Tajo：一个运行在YARN上支持SQL的分布式数据仓库

将SQL转化为MapReduce。典型代表是Apache Hive，这种系统的特点是扩展性和容错性好，但性能低下。为了弥补SQL on MapReduce的不足，google提出了Tenzing（见参考资料[3]），与Hive不同，Tenzing充分借鉴了MapReduce和DataBase的优势，首先，它对传统的MapReduce进行了优化（比如Map 可以不写磁盘，Reduce可不必排序等），使其性能更高，采用MapReduce一大优势是使Tenzing具有了很好的扩展性和容错性，Tenzing论文是这样表述的

码农工程师

204 0 0

Apache Tajo：一个运行在YARN上支持SQL的分布式数据仓库

阿里云实时计算Flink

|

Apache 对象存储流计算

回顾 | Apache Flink x Iceberg Meetup · 上海站精彩回顾 (附PPT下载)

PPT下载链接来啦！

阿里云实时计算Flink

7317 0 0

回顾 | Apache Flink x Iceberg Meetup · 上海站精彩回顾 (附PPT下载)

阿里云实时计算Flink

|

SQL 存储分布式计算

深度集成 Flink: Apache Iceberg 0.11.0 最新功能解读

Apache Flink 和 Apache Iceberg 在共同打造流批一体的数据湖架构上开启了新的篇章。

阿里云实时计算Flink

2993 0 0

深度集成 Flink: Apache Iceberg 0.11.0 最新功能解读

灵杰开发者

|

1月前

|

消息中间件 API Apache

官宣｜阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会

本文整理自阿里云开源大数据平台徐榜江 (雪尽)，关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。

灵杰开发者

1410 1 1

官宣｜阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会

灵杰开发者

|

1月前

|

SQL Java API

官宣｜Apache Flink 1.19 发布公告

Apache Flink PMC（项目管理委员）很高兴地宣布发布 Apache Flink 1.19.0。

灵杰开发者

1344 1 2

官宣｜Apache Flink 1.19 发布公告

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

JindoFS: 云上大数据的高性能数据湖存储方案

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

【译】使用Spark SQL 运行大规模基因组工作流

YARN中的CPU资源隔离-CGroups

EMR集群上capacity scheduler的ACL实现

SparkSQL自适应执行

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

5分钟迅速搭建云上Lambda大数据分析架构

YARN(hadoop2)框架的一些软件设计模式

开源大数据周刊-第67期

基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成（RAG）系统

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

EMR Notebook 开启公测，提供交互式数据分析平台

Apache Hadoop入门指南：搭建分布式大数据处理平台

阿里云向量检索 Milvus 版开启公测，助力企业打造高质量 AI 服务

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

1688API接口推荐：1688口令转换真实链接接口

1688API接口推荐：1688按图搜索拍立淘数据接口

相关课程

更多

Apache RocketMQ：如何从互联网时代演进到云

Apache Flink 入门到实战 - Flink开源社区出品

Apache Flink 入门

SaaS模式云数据仓库实战

数据分析系统之数据管理与数据仓库

SaaS 模式云数据仓库必修课

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

云原生HTAP数据库，让你的交易和分析一库搞定

基于Flink+Tair搭建实时监控大屏

基于数据湖架构的网站访问行为分析

使用Flink实时发现最热Github项目

海量数据下Lindorm查询实践

推荐镜像

更多

apache

packman

CPAN

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）