开发者社区> 问答> 正文

Spark S3最终一致性问题

我有几个Spark作业,它们将数据写入S3并从中读取数据。偶尔(大约每周一次大约3个小时),Spark作业将失败,但有以下异常:

org.apache.spark.sql.AnalysisException: Path does not exist.
我发现这可能是由于S3中的一致性模型,其中列表操作最终是一致的。S3 Guard声称要解决这个问题,但我在Spark环境中不支持该实用程序。

有没有其他人遇到这个问题,并想出一个合理的方法来处理它?

展开
收起
社区小助手 2018-12-12 13:27:11 2848 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    如果您使用的是AWS EMR,它们可提供一致的EMR。
    如果您使用的是Databricks:它们在事务IO中提供了一致性机制
    HDP和CDH都附带S3Guard
    如果您正在运行自己的自制saprk堆栈,请转到Hadoop 2.9+以获得S3Guard,甚至更好:Hadoop 3.1用于零重命名S3A提交器。
    否则:不要使用S3作为工作的直接目的地。

    2019-07-17 23:20:07
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载