《Flume日志收集与MapReduce模式》一1.1 Flume 0.9

简介:

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章,第1.1节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.1 Flume 0.9

Flume是在2011年被首次引入到Cloudera的CDH3分发中的。它由一套工作守护进程(代理)构成,这些守护进程是通过Zookeeper(一个配置与协调系统)根据一个或多个集中的Master配置而成的。在Master上,你可以在Web UI中查看代理状态,也可以以集中的方式在UI或是通过命令行Shell的方式取出配置(这两种方式都是通过Zookeeper与工作代理进行通信的)。
可以通过3种模式发送数据,分别叫作Best Effort(BE)、Disk Failover(DFO)以及End-to-End(E2E)。Masters用于E2E模式,而多个Master配置尚不成熟,因此通常情况下只会使用一个Master,这使得其成为了E2E数据流失败的主要原因。Best Effort见名知意,代理会尝试并发送数据,如果无法发送,那么数据就会被丢弃。这种模式非常适合于度量等场景,一些差异是可以被接受的,因为新数据很快就会到来。DiskFailover模式会将无法发送的数据存储到本地磁盘上(有时也存储到本地数据库中),并且会不断重试,直到可以将数据发送到数据流中的下一个接受者为止。这对于计划好(或计划外)的断电场景很方便,只要有足够的本地磁盘能够缓存负载即可。
2011年6月,Cloudera将Flume项目的控制权交给了Apache基金会。2012年,Flume项目就从孵化状态变成了顶级项目。在孵化的这一年中,开发人员就已经开始基于Star Trek Themed标签对Flume进行重构,并创建了Flume-NG(Flume the Next Generation)。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
5月前
|
分布式计算 Hadoop Java
【集群模式】执行MapReduce程序-wordcount
【集群模式】执行MapReduce程序-wordcount
|
5月前
|
分布式计算 Java Hadoop
【本地模式】第一个Mapreduce程序-wordcount
【本地模式】第一个Mapreduce程序-wordcount
|
6月前
|
分布式计算 资源调度 Hadoop
23 MAPREDUCE程序运行模式
23 MAPREDUCE程序运行模式
34 0
|
11月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的多路复用模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector多路复用模式,讲解其数据采集流程。
111 0
|
11月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的复制模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式,讲解其数据采集流程。
83 0
|
12月前
|
分布式计算 Ubuntu Hadoop
【集群模式】执行MapReduce程序-wordcount
因为是在hadoop集群下通过jar包的方式运行我们自己写的wordcount案例,所以需要传递的是 HDFS中的文件路径,所以我们需要修改上一节【本地模式】中 WordCountRunner类 的代码
|
12月前
|
分布式计算 Java Hadoop
【本地模式】第一个Mapreduce程序-wordcount
也就是在windows环境下通过hadoop-client相关jar包进行开发的,我们只需要通过本地自己写好MapReduce程序即可在本地运行。
|
分布式计算 资源调度 Hadoop
Hadoop运行模式(二)、SSH无密登录配置、生成公钥和私钥、集群配置、集群部署规划、默认配置文件、核心配置文件、HDFS配置文件、YARN配置文件、MapReduce配置文件、在集群上分发配置好的
ssh文件夹下(~/.ssh)的文件功能解释、ssh连接时出现Host key verification failed的解决方法、免密登录原理、将公钥拷贝到要免密登录的目标机器上、NameNode和SecondaryNameNode不要安装在同一台服务器、ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上、Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值、.
385 1
Hadoop运行模式(二)、SSH无密登录配置、生成公钥和私钥、集群配置、集群部署规划、默认配置文件、核心配置文件、HDFS配置文件、YARN配置文件、MapReduce配置文件、在集群上分发配置好的
|
存储 分布式计算 安全
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
272 0
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2

热门文章

最新文章