备案控制台

开发者社区

开发者社区云计算文章正文

Flume-ng HDFS Sink “丢数据”

2017-11-15 1379

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

线上对Flume流入HDFS配置path:p1，每分钟切一个文件，定期从p1从move完成的（rename）文件到外部表进行计算分析，发现有“丢数据”现象：即在p1下经常看到几GB的.tmp文件，查看Flume日志发现当出现CallTimeout Exception :HDFS IO ERROR后，sink一直向.tmp写入，而不进行rename.

Flume HDFS Sink正常写入流程见：http://boylook.blog.51cto.com/7934327/1298627

默认情况下，当BucketWriter flush超过calltimeout（default:10s）时，会报出异常，这时可能HDFS或者网络异常，如果恰好到达了rollinterval，bucketWriter执行close->flush也会报出同样的异常：Unexpectederror，没有执行到renameBucket，此后该bucketWriter保持打开状态（因为intervalroll只在bucketWriter打开时进行一次调度），一直进行数据写入不再roll直到1.创建写的路径2.Flume重启 3.打开到达maxOpenFiles，这些是不可接受的.

查看源码发现在每次flush时会判断是否使用idleTime，如果使用则会调度一个idleHandler thread进行清理：1.关闭bucketWriter 2.从LRUList中摘除掉bucketWriter，而默认竟然是不启用的=.=，后设置idleTime稍大于roll interval后，不再出现“数据丢失”

BTW，对于HDFS SINK，callTimeout和idleTimeout的默认值真是太傻了...

本文转自MIKE老毕 51CTO博客，原文链接：http://blog.51cto.com/boylook/1308188，如需转载请自行联系原作者

文章标签：

调度

关键词：

文件存储HDFS版数据

Flume sink

文件存储HDFS版sink

科技小先锋

目录

相关文章

极客李华

|

3月前

|

存储分布式计算 Java

HDFS的数据读取流程是怎样的？请描述数据读取的过程。

HDFS的数据读取流程是怎样的？请描述数据读取的过程。

极客李华

27 0 0

极客李华

|

3月前

|

Java API

HDFS的数据写入流程是怎样的？请描述数据写入的过程。

HDFS的数据写入流程是怎样的？请描述数据写入的过程。

极客李华

20 0 0

Maynor

|

4月前

|

存储 Linux

[hadoop3.x]HDFS之银行海量转账数据分层案例(八)

[hadoop3.x]HDFS之银行海量转账数据分层案例(八)

Maynor

110 1 1

小山猪

|

9月前

|

消息中间件存储分布式计算

Flume实现Kafka数据持久化存储到HDFS

Flume实现Kafka数据持久化存储到HDFS

小山猪

416 0 0

安然AR

|

9月前

|

存储大数据

大数据数据存储的分布式文件系统的HDFS的核心机制理解的数据读/写原理

在 Hdfs 中，数据的读写原理是基于块的分布式存储。

安然AR

52 0 0

syst1_m

|

5月前

|

算法数据中心

HDFS数据的读写流程

HDFS数据的读写流程

syst1_m

42 0 0

明哥的IT随笔

|

6月前

|

SQL 分布式计算大数据

大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复

大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复

明哥的IT随笔

56 0 0

赵广陆

|

7月前

|

存储分布式计算负载均衡

HDFS服役新数据节点和退役旧节点步骤

HDFS服役新数据节点和退役旧节点步骤

赵广陆

181 1 1

1344923649437553

|

7月前

|

缓存分布式计算负载均衡

HDFS 的写数据流程分析

HDFS的写数据流程是一道比较常见的面试题，同时梳理了写流程也可以帮助我们更加深入一点的了解 HDFS 的主要原理和各个组件的交互过程

1344923649437553

69 0 0

星光下的赶路人

|

8月前

|

JSON 缓存关系型数据库

5、DataX（DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL）（二）

5、DataX（DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL）（二）

星光下的赶路人

854 0 0

热门文章

最新文章

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

bigdata-07-Hdfs原理到实战

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

【Hadoop】HDFS 读写流程

【Flume】Flume常用的拓扑结构

【Flume】Flume 核心组件分析

【Flume】Flume在大数据分析领域的应用

【Flume】Flume的事务机制

【Flume】 Flume 区别分析：ExecSource、Spooldir Source、Taildir Source

Flume数据采集系统设计与配置实战：面试经验与必备知识点解析

【Flume】Flume常用的拓扑结构

【Flume】Flume的事务机制

【Flume】 Flume 区别分析：ExecSource、Spooldir Source、Taildir Source

【Flume】Flume在大数据分析领域的应用

【Flume】Flume 核心组件分析

【Flume 】Flume 基础概述

bigdata-12-Flume核心组件

Flume【付诸实践 01】flume1.9.0版配置格式说明+常用案例分享（ExecSource+SpoolingDirectorySource+HDFSSink+AvroSourceSink）

Flume【基础知识 01】简介 + 基本架构及核心概念 + 架构模式 + Agent内部原理 + 配置格式（一篇即可入门Flume）

相关课程

更多

Flume基础应用实战 - 企业全场景解决方案

Hadoop 分布式文件系统 HDFS

数据采集系统 Flume 快速入门

相关电子书

更多

海量数据分布式存储——Apache HDFS之最新进展

Spark Streaming-as-aService with Kafka and YARN

Dataflow with Apache NiFi

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）