《Flume日志收集与MapReduce模式》一3.3 小结

简介:

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章,第3.3节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.3 小结

本章介绍了在数据处理管道中常用的两类通道。
内存通道提供了更快的速度,这是以故障事件出现时数据丢失为代价的。
此外,文件通道提供了更可靠的传输,因为它能容忍代理故障与重启,这是以牺牲性能为代价的。
你需要确定哪种通道更适合于你的使用场景。在确定内存通道是否适合时,请问问自己丢失一些数据的经济上的代价如何。在考虑是否使用持久化通道时请衡量它与添加更多的硬件以弥补性能上的差异时的代价相比如何。另一个考虑就是数据问题了。写入到Hadoop中的数据不一定都来自于流式应用日志。如果接收的是每天的数据下载,那么就可以使用内存通道了,因为一旦遇到了问题还可以重新导入。
image

下一章将会介绍接收器。特别是将事件写到HDFS中的HDFS接收器;此外,还会介绍事件序列化器,它指定了如何将Flume事件转换为更加适合于接收器处理的输出。最后,下一章将会介绍接收处理器以及如何在分层配置中创建负载均衡与故障路径,从而实现更为健壮的数据传输。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
4月前
|
分布式计算 Hadoop Java
【集群模式】执行MapReduce程序-wordcount
【集群模式】执行MapReduce程序-wordcount
|
4月前
|
分布式计算 Java Hadoop
【本地模式】第一个Mapreduce程序-wordcount
【本地模式】第一个Mapreduce程序-wordcount
|
5月前
|
分布式计算 资源调度 Hadoop
23 MAPREDUCE程序运行模式
23 MAPREDUCE程序运行模式
33 0
|
10月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的多路复用模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector多路复用模式,讲解其数据采集流程。
110 0
|
10月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的复制模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式,讲解其数据采集流程。
81 0
|
11月前
|
分布式计算 Ubuntu Hadoop
【集群模式】执行MapReduce程序-wordcount
因为是在hadoop集群下通过jar包的方式运行我们自己写的wordcount案例,所以需要传递的是 HDFS中的文件路径,所以我们需要修改上一节【本地模式】中 WordCountRunner类 的代码
|
11月前
|
分布式计算 Java Hadoop
【本地模式】第一个Mapreduce程序-wordcount
也就是在windows环境下通过hadoop-client相关jar包进行开发的,我们只需要通过本地自己写好MapReduce程序即可在本地运行。
|
存储 分布式计算 安全
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
269 0
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
|
消息中间件 缓存 监控
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
344 0
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
|
分布式计算 监控 Hadoop
四十五、centos安装flume(集群模式)
四十五、centos安装flume(集群模式)
四十五、centos安装flume(集群模式)

相关实验场景

更多