1. 云栖社区>
  2. 全部标签>
  3. #flume#
flume

#flume#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

使用EMR-Flume将非EMR集群的数据同步至EMR集群的HDFS

E-MapReduce从3.20.0版本开始对EMR-Flume新增了Log Service Source。借助Log Service的Logtail等工具,可以将需要同步的数据实时采集并上传到LogHub,再使用EMR-Flume将LogHub的数据同步至EMR集群的HDFS

大数据 分布式系统与计算 实时系统 hdfs LOG 配置 集群 agent 同步 EMR 数据同步 flume loghub LogService

Flume1.8用户手册中文版的翻译终于在今天完成了

今天刚刚终于把Flume1.8的用户手册翻译完了,稍后再审阅核对一遍应该就算告一段落了,翻译的过程很大程度借助于Google翻译,刚准备翻译的时候最新的版本是1.8,如今Flume1.9都已经发布了,不过不用担心Flume版本的变化并不大,应该说整个1.x版本都差不多,新版本只不过是在往上面加一些新的组件和一些bug修复。

源码 配置 flume 中文文档

使用EMR-Flume同步HDFS audit日志到HDFS

E-MapReduce从3.19.0版本开始对EMR-Flume提供集群管理的功能。通过集群管理功能,可以在Web页面方便的配置和管理Flume Agent。 本文将使用EMR-Flume实时同步HDFS audit日志至HDFS,便于对HDFS操作记录进行离线统计和实时分析。

分布式 大数据 hdfs 日志 高可用 配置 集群 agent Image 同步 e-mapreduce flume 流式系统 audit

使用EMR-Flume同步Kafka数据到HDFS

Flume是一个分布式、可靠和高效的数据汇聚系统,其source、channel和sink的结构设计,不仅实现了数据生产者与消费者的解耦,还提供了数据缓冲的功能。一个比较通用的使用场景是使用Flume将Kafka的数据按照时间分区同步至HDFS,进行实时的流式分析或离线统计。

分布式 大数据 hdfs 性能 配置 集群 agent 负载均衡 同步 aliyun e-mapreduce flume kafka 流式系统

大数据项目实战之新闻话题统计分析

前言:本文是一个完整的大数据项目实战,实时|离线统计分析用户的搜索话题,并用JavaEE工程前端界面展示出来。这些指标对网站的精准营销、运营都有极大帮助。架构大致是按照企业标准来的,从日志的采集、转化处理、实时计算、JAVA后台开发、WEB前端展示,一条完整流程线下来,甚至每个节点都用的高可用架构,都考虑了故障转移和容错性。

大数据 java hbase hadoop spark scala Hive flume kafka SSM

flume 单机问题解决与架构更改

[TOC] 引言 今天针对线上生产环境下单机 flume 拉取kafka数据并存储数据入Hdfs 出现大批量数据延迟. 在网上官网各种搜索数据,并结合官网数据,现进行以下总结 1. 线上单机存在问题简述 当前flume拉取kafa数据量并不大 ,根据flume客户端日志 ,每半分钟hdfs文件写入一次数据生成文件 发现问题: **拉取kafka数据过慢** 2.

云栖社区 数据存储与数据库 大数据 架构 hdfs hadoop Apache 配置 agent Consumer source type bootstrap 存储 flume

Flume抽取日志

监控节点dt02上的日志文件,并将日志传输到节点dt03 agent结构图 在dt02上配置agent exec-menory-avro.conf ##将dt02的数据发送给dt03 exec-menory-avro.

大数据 监控 日志 配置 agent logger 脚本 type flume

大数据学习笔记(一):大数据编程的五大软件初识

大数据编程的五大软件初识:Hadoop,Hive,Spark,Sqoop,Flume。

云栖社区 分布式 大数据 hdfs hadoop SQL 数据处理 高可用 数据库 spark Hive 编程 sqoop flume

【大数据技巧】Flume采集网站日志到MaxCompute常见问题汇总

本文列举了Flume采集网站日志到MaxCompute的一些常见问题,欢迎大家补充;

flume MaxCompute

【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute

概述:大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累。 任何规模的企业,每时每刻都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的

flume MaxCompute 日志采集 大数据平台

1
GO