备案控制台

开发者社区

开发者社区华章出版社文章正文

《Flume日志收集与MapReduce模式》一3.3　小结

2017-05-02 1042

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章，第3.3节，作者［美］史蒂夫·霍夫曼（Steve Hoffman）斯里纳特·佩雷拉（Srinath Perera），更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.3　小结

本章介绍了在数据处理管道中常用的两类通道。
内存通道提供了更快的速度，这是以故障事件出现时数据丢失为代价的。
此外，文件通道提供了更可靠的传输，因为它能容忍代理故障与重启，这是以牺牲性能为代价的。
你需要确定哪种通道更适合于你的使用场景。在确定内存通道是否适合时，请问问自己丢失一些数据的经济上的代价如何。在考虑是否使用持久化通道时请衡量它与添加更多的硬件以弥补性能上的差异时的代价相比如何。另一个考虑就是数据问题了。写入到Hadoop中的数据不一定都来自于流式应用日志。如果接收的是每天的数据下载，那么就可以使用内存通道了，因为一旦遇到了问题还可以重新导入。

下一章将会介绍接收器。特别是将事件写到HDFS中的HDFS接收器；此外，还会介绍事件序列化器，它指定了如何将Flume事件转换为更加适合于接收器处理的输出。最后，下一章将会介绍接收处理器以及如何在分层配置中创建负载均衡与故障路径，从而实现更为健壮的数据传输。

文章标签：

日志服务

监控

分布式计算

关键词：

mapreduce模式

开源大数据平台 E-MapReduce flume

Flume模式

开源大数据平台 E-MapReduce模式

Flume日志收集

相关实践学习

日志服务之使用Nginx模式采集日志

本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。

华章计算机

目录

相关文章

让线程再跑一会

|

4月前

|

分布式计算 Hadoop Java

【集群模式】执行MapReduce程序-wordcount

【集群模式】执行MapReduce程序-wordcount

让线程再跑一会

27 1 1

让线程再跑一会

|

4月前

|

分布式计算 Java Hadoop

【本地模式】第一个Mapreduce程序-wordcount

【本地模式】第一个Mapreduce程序-wordcount

让线程再跑一会

23 0 0

阿甘兄

|

5月前

|

分布式计算资源调度 Hadoop

23 MAPREDUCE程序运行模式

23 MAPREDUCE程序运行模式

阿甘兄

33 0 0

安然AR

|

10月前

|

数据采集缓存大数据

大数据数据采集的数据采集（收集/聚合）的Flume之数据采集流程的Selector的多路复用模式

在大数据处理和管理中，数据采集是非常重要的一环。为了更加高效地进行数据采集，Flume作为一种流式数据采集工具得到了广泛的应用。其中，Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector多路复用模式，讲解其数据采集流程。

安然AR

110 0 0

安然AR

|

10月前

|

数据采集缓存大数据

大数据数据采集的数据采集（收集/聚合）的Flume之数据采集流程的Selector的复制模式

在大数据处理和管理中，数据采集是非常重要的一环。为了更加高效地进行数据采集，Flume作为一种流式数据采集工具得到了广泛的应用。其中，Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式，讲解其数据采集流程。

安然AR

81 0 0

让线程再跑一会

|

11月前

|

分布式计算 Ubuntu Hadoop

【集群模式】执行MapReduce程序-wordcount

因为是在hadoop集群下通过jar包的方式运行我们自己写的wordcount案例，所以需要传递的是 HDFS中的文件路径，所以我们需要修改上一节【本地模式】中 WordCountRunner类的代码

让线程再跑一会

95 0 0

让线程再跑一会

|

11月前

|

分布式计算 Java Hadoop

【本地模式】第一个Mapreduce程序-wordcount

也就是在windows环境下通过hadoop-client相关jar包进行开发的，我们只需要通过本地自己写好MapReduce程序即可在本地运行。

让线程再跑一会

99 0 0

云祁

|

存储分布式计算安全

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统2

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统2

云祁

269 0 0

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统2

云祁

|

消息中间件缓存监控

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统1

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统1

云祁

344 0 1

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统1

托马斯-酷涛

|

分布式计算监控 Hadoop

四十五、centos安装flume(集群模式)

四十五、centos安装flume(集群模式)

托马斯-酷涛

242 0 0

四十五、centos安装flume(集群模式)

华章出版社

热门文章

最新文章

【Flume】Flume常用的拓扑结构

【Flume】Flume 核心组件分析

【Flume】Flume在大数据分析领域的应用

【Flume】Flume的事务机制

【Flume】 Flume 区别分析：ExecSource、Spooldir Source、Taildir Source

【Flume 】Flume 基础概述

Flume数据采集系统设计与配置实战：面试经验与必备知识点解析

bigdata-12-Flume核心组件

【Hive】Hive的两张表关联，使用MapReduce怎么实现？

bigdata-08-MapReduce原理到实战

【Hive】Hive的两张表关联，使用MapReduce怎么实现？

面经：MapReduce编程模型与优化策略详解

bigdata-08-MapReduce原理到实战

阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践

mapreduce 快速入门

通过比喻理解-MapReduce的数据处理流程

如何在MapReduce中处理多个输入文件？

如何在MapReduce中处理非结构化数据？

MapReduce的优缺点是什么？

Hadoop的JobTracker和TaskTracker在MapReduce中的作用是什么？

相关课程

更多

Flume基础应用实战 - 企业全场景解决方案

Hadoop 分布式计算框架 MapReduce

数据采集系统 Flume 快速入门

Hadoop 分布式资源管理框架 YARN

分布式消息系统 Kafka 快速入门

快速掌握阿里云 E-MapReduce

相关电子书

更多

Dataflow with Apache NiFi

Spark Streaming-as-aService with Kafka and YARN

使用Apache Beam和HBase进行高效数据处理

相关实验场景

更多

搭建Hadoop环境

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）