深入剖析 Delta Lake:详解事务日志

  1. 云栖社区>
  2. 阿里云E-MapReduce(EMR)>
  3. 博客>
  4. 正文

深入剖析 Delta Lake:详解事务日志

开源大数据EMR 2019-09-11 16:40:19 浏览182
展开阅读全文

事务日志(Transaction log)是理解 Delta Lake 的一个关键点,很多 Delta Lake 的重要特性都是基于事务日志实现的,包括 ACID 事务性、可扩展元数据处理、时间回溯等等。本文将探讨什么是事务日志,如何在文件层面实现,以及怎样优雅地解决并发读写的问题。

什么是事务日志?

Delta Lake 的事务日志(简称 DeltaLog)是一种有序记录集,按序记录了 Delta Lake 表从生成伊始的所有事务操作。

事务日志有何作用?

单一信息源

Delta Lake 基于 Apache Spark 构建,用来支持多用户同时读写同一数据表。事务日志作为单一信息源——跟踪记录了用户所有的表操作,从而为用户提供了在任意时刻准确的数据视图。
当用户首次访问 Delta Lake 的表,或者对一张已打开的表提交新的查询但表中的

网友评论

登录后评论
0/500
评论
开源大数据EMR
+ 关注
所属云栖号: 阿里云E-MapReduce(EMR)