涂作权 + 关注
java,架构,编程语言相关专家

Flume监听文件夹中的文件变化,并把文件下沉到hdfs

发布时间:2017-06-13 23:52:00 浏览:2961 评论 :0

1、采集目录到HDFS 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 采集源,即source——监控文件目录 : spooldir 下沉目标,即sink——HDFS文件系统 : hdfs sink source和sink之间的传递通道——channel,可用file chann

监控 hdfs hadoop events 配置 source type

模拟使用Flume监听日志变化,并且把增量的日志文件写入到hdfs中

发布时间:2017-06-13 22:32:00 浏览:5483 评论 :0

1.采集日志文件时一个很常见的现象 采集需求:比如业务系统使用log4j生成日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs中。 1.1.根据需求,首先定义一下3大要素: 采集源,即source—监控日志文件内容更新:exec ‘tail -F file’ 下沉目标,即sink—HDFS文件系统:hdfs sink Source和sink之

hdfs hadoop 日志 LOG 配置 test source

Flume安装部署,采集方案配置文件编写案例,启动agent采集数据

发布时间:2017-06-13 20:17:00 浏览:1760 评论 :0

1.2 Flume实战案例 1.2.1 Flume的安装部署 1、Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz,最终解压到的位置是:/home/tuzq/software/apache-flume-1.6.0-bi

hadoop 配置 agent logger 测试 source type

日志采集框架Flume、Flume介绍、概述、运行机制、Flume采集系统结构图(1、简单结构、复杂结构)

发布时间:2017-06-13 17:08:00 浏览:1836 评论 :0

1. 日志采集框架Flume 1.1 Flume介绍 1.1.1 概述 1.Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 2.Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 3.一般的采集需求,通过对flume的简单配置即可实现

分布式 日志 高可用 agent 分布式系统 数据采集 存储

Hive内置运算函数,自定义函数(UDF)和Transform

发布时间:2017-06-13 16:27:00 浏览:3529 评论 :0

4.Hive函数 4.1 内置运算符 内容较多,见《Hive官方文档》   4.2 内置函数 内容较多,见《Hive官方文档》 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF   测试各种内置函数的快捷方法: 1、创建一个dual表 create table dual(id string); 2、loa

hadoop 函数 Apache 数据仓库 空格 Hive class UDF timestamp

Hive常用运算(关系运算)、逻辑运算与数学运算、数值运算、日期函数、条件函数、字符串函数

发布时间:2017-06-11 17:00:00 浏览:1788 评论 :0

hive 常用运算 第一部分:关系运算 Hive支持的关系运算符 •常见的关系运算符 •等值比较: = •不等值比较: <> •小于比较: < •小于等于比较: <= •大于比较: > •大于等于比较: >= •空值判断: IS NULL •非空判断: IS NOT NULL •LIKE比较: LIKE •JAVA的LIKE操作: RLIKE •REGEXP

函数 正则表达式 string 表达式 Hive Unix 数据类型

Hive分区、分桶操作及其比较(转自:http://blog.csdn.net/epitomizelu/article/details/41911657)

发布时间:2017-06-11 14:46:00 浏览:2360 评论 :0

1,Hive分区。      是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。

hdfs 日志 http Hive 分区表 Blog 存储 数据类型

函数分类,HIVE CLI命令,简单函数,聚合函数,集合函数,特殊函数(窗口函数,分析函数,混合函数,UDTF),常用函数Demo

发布时间:2017-06-11 13:40:00 浏览:1962 评论 :0

1.1. 函数分类 1.2. HIVE CLI命令 显示当前会话有多少函数可用 SHOW FUNCTIONS; 显示函数的描述信息 DESC FUNCTION concat; 显示函数的扩展描述信息 DESC FUNCTION EXTENDED concat; 1.3. 简单函数 函数的计算粒度为单条记录。 关系运算 数学运算 逻辑运算 数值计算 类型转换 日期函数 条件函数 字

函数 正则表达式 BY string Hive demo 数组 view

HIVE的安装配置、mysql的安装、hive创建表、创建分区、修改表等内容、hive beeline使用、HIVE的四种数据导入方式、使用Java代码执行hive的sql命令

发布时间:2017-06-10 22:11:00 浏览:7503 评论 :0

1.上传tar包这里我上传的是apache-hive-1.2.1-bin.tar.gz2.解压         mkdir -p /home/tuzq/software/hive/ tar -zxvf apache-hive-1.2.1-bin.tar.gz  -C /home/tuzq/software/hive/3.安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通

java mysql hadoop SQL 配置 string JDBC Hive test 分区表 Create

Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储(来自学习资料)

发布时间:2017-06-10 19:28:00 浏览:2671 评论 :0

1.1 Hive简介 1.1.1   什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2   为什么使用Hive Ø  直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大   Ø  为什么要使用Hive 操作接口采用类SQ

架构 hdfs hadoop SQL 数据库 数据仓库 集群 可扩展性 索引 并行计算 Hive Mapreduce 存储 数据存储

hdfs haadmin使用,DataNode动态上下线,NameNode状态切换管理,数据块的balance,HA下hdfs-api变化(来自学习资料)

发布时间:2017-06-10 19:13:00 浏览:1540 评论 :0

1.2.4集群运维测试 HA集群中两个namenode状态的管理命令 [root@mini2 hadoop-2.6.4]# bin/hdfs haadmin Usage: DFSHAAdmin [-ns <nameserviceId>]     [-transitionToActive <serviceId> [--forceactive]]     [-

hdfs hadoop path 配置 集群 HA 磁盘

hadoop-HA集群搭建,启动DataNode,检测启动状态,执行HDFS命令,启动YARN,HDFS权限配置,C++客户端编程,常见错误

发布时间:2017-06-10 13:49:00 浏览:5867 评论 :0

本篇博文为整理网络上Hadoop-HA搭建后出来的博客,参考网址为:http://blog.chinaunix.net/uid-196700-id-5751309.html 3. 部署 3.1. 机器列表 共5台机器(zookeeper部署在这5台机器上),部署如下表所示: NameNode JournalNode DataNode ZooKeeper 192.168.106

java hdfs hadoop c++ Apache 配置 集群 Server xml 编程 Mapreduce

Hadoop的HA机制

发布时间:2017-06-08 19:06:00 浏览:1175 评论 :0

 Hadoop的HA机制 前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 1.1HA的运作机制 (1)hadoop-HA集群运作机制介绍 所谓HA,即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA   (2)HDFS的HA机制详解 通过双namenode消除单

监控 hdfs hadoop 高可用 集群 单点故障 存储 数据管理

MapReduce多个job同时使用的方式(从网上找到的案例,原始博文:http://www.cnblogs.com/yjmyzz/p/4540469.html)

发布时间:2017-06-04 20:47:00 浏览:1945 评论 :0

复杂的MapReduce处理中,往往需要将复杂的处理过程,分解成多个简单的Job来执行,第1个Job的输出做为第2个Job的输入,相互之间有一定依赖关系。以上一篇中的求平均数为例,可以分解成三个步骤: 1. 求Sum 2. 求Count 3. 计算平均数 每1个步骤看成一个Job,其中Job3必须等待Job1、Job2完成,并将Job1、Job2的输出结果做为输入,下面的代码演示了如何将这3个

hadoop Apache http path string static class void html Mapreduce

MapReduce 计数器简介(转载自:http://www.tuicool.com/articles/qqyIBr)

发布时间:2017-06-04 15:47:00 浏览:948 评论 :0

1、计数器 简介 在许多情况下,一个用户需要了解待分析的数据,尽管这并非所要执行的分析任务 的核心内容。以统计数据集中无效记录数目的任务为例,如果发现无效记录的比例 相当高,那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在 缺陷,还是数据集质量确实很低,包含大量无效记录?如果确定是数据集的质量问 题,则可能需要扩大数据集的规模,以增大有效记录的比例,从而进行有意义的 分析。 计

hdfs hadoop 线程 Apache http reduce class read Group Mapreduce input

Mapreduce和Yarn概念,参数优化,作用,原理,MapReduce计数器 Counter,MapReduce 多job串联之ControlledJob(来自学习资料)

发布时间:2017-06-04 14:33:00 浏览:1309 评论 :0

3.3. MapReduce与YARN 3.3.1 YARN概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 3.3.2 YARN的重要概念 1、  yarn并不清楚用户提交的程序的运行机制 2、  yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责

配置 reduce class Mapreduce

Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量,jar文件等

发布时间:2017-06-04 02:26:00 浏览:1430 评论 :0

一个典型的实现Tool的程序: /** MyApp 需要从命令行读取参数,用户输入命令如, $bin/hadoop jar MyApp.jar -archives test.tgz  arg1 arg2 -archives 为hadoop通用参数,arg1 ,arg2为job的参数 */ public class MyApp extends Configured imple

java hadoop 函数 path 配置 reduce string static exception class Mapreduce

MapReduce将小文件合并成大文件,并设置每个切片的大小的案例

发布时间:2017-06-04 01:42:00 浏览:2140 评论 :0

测试代码: package cn.toto.bigdata.combinefile; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; imp

hadoop Apache path static class Mapreduce input

通过MapReduce统计每个单子在每个文件中出现的次数(FileSplit的使用),单词作为key,所在文本和次数作为value进行统计

发布时间:2017-06-03 16:33:00 浏览:1307 评论 :0

代码如下: package cn.toto.bigdata.mr.index; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import

hadoop Apache path string static class void index Mapreduce 数据类型

MapTask并行度决定机制、FileInputFormat切片机制、map并行度的经验之谈、ReduceTask并行度的决定、MAPREDUCE程序运行演示(来自学笔记)

发布时间:2017-06-03 14:44:00 浏览:1361 评论 :0

1.3 MapTask并行度决定机制 maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度 那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢?   1.3.1mapTask并行度的决定机制 一个job的map阶段并行度由客户端在提交job时决定 而客户端对map阶段并行度的规划的基本逻辑为: 将待处理数据执行逻辑切片(即按照一个特定切片大小,

jvm 配置 reduce 集群 file Mapreduce input

64