1. 云栖社区>
  2. 全部标签>
  3. #hdfs#
hdfs

#hdfs#

已有2人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

hadoop的部署以及应用

1.基础环境 1 2 3 4 5 6 7 8 9 10 [hadoop@master ~]$ cat  /etc/redhat-release  CentOS Linux release 7.

java hdfs hadoop file Mapreduce

搭建部署Hadoop 之 HDFS

HDFS  Hadoop 分布式文件系统 分布式文件系统 分布式文件系统可以有效解决数据的存储和管理难题 – 将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统 – 众多的节点组成一个文件系统网络 – 每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输 – 人们在使用分布式文件系统时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据 HDFS 角色及概念 • 是Hadoop体系中数据存储管理的基础。

java hdfs hadoop yum 配置 Cache 分布式文件系统 数据存储

HDFS进阶应用 配置 NFS 网关

HDFS进阶应用 配置NFS 网关 • NFS 网关用途     – 1.用户可以通过操作系统兼容的本地NFSv3客户端来阅览HDFS文件系统     – 2.用户可以从HDFS文件系统下载文档到本地文件系统     – 3.用户可以通过挂载点直接流化数据。

hdfs hadoop yum 配置 主机 NFS

使用Ambari搭建Hadoop集群

Hadoop 介绍 Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:MapReduce和HDFS。

分布式 java 监控 hdfs hadoop Apache 数据库 yum 配置 镜像 集群 node Server Mariadb Ambari

小白学习大数据测试之hadoop初探

Hadoop的历史 这里就不多说了,网上很多资料,总而言之对于hadoop谷歌和雅虎对于ta的贡献功不可没。更多介绍请自行查看这里:https://baike.baidu.com/item/Hadoop/3526507?fr=aladdin Hadoop的应用场景 数据分析,如日志系统、推荐系统 离线计算 海量数据存储 Hadoop的核心 Hadoop的框架最核心的设计就是:HDFS和MapReduce。

大数据 hdfs hadoop 数据仓库 测试 分布式架构 离线计算 分布式文件系统 Mapreduce 存储 海量数据 推荐系统

大数据测试之hadoop单机环境搭建(超级详细版)

Hadoop的运行模式 单机模式是Hadoop的默认模式,在该模式下无需任何守护进程,所有程序都在单个JVM上运行,该模式主要用于开发和调试mapreduce的应用逻辑; 伪分布式模式下,Hadoop守护进程运行在一台机器上,模拟一个小规模的集群。

linux 分布式 大数据 java hdfs hadoop path 配置 集群 测试 xml

小白学习大数据测试之hadoop hdfs和MapReduce小实战

在湿货|大数据测试之hadoop单机环境搭建(超级详细版)这个基础上,我们来运行一个官网的MapReduce demo程序来看看效果和处理过程。 大致步骤如下: 新建一个文件test.txt,内容为 Hello Hadoop Hello xiaoqiang Hello testingbang Hello http://xqtesting.

大数据 hdfs hadoop 根目录 配置 浏览器 测试 test Mapreduce

hadoop随记(一)

    现在是一个大数据的年代,每天全球已电子方式存储数据的数据总量非常大。下面是部分例子:      1,facebook存储这约100亿张照片,越1PB存储容量      2,The Internet Archive(互联网档案馆)存储这约2PB数据,并以每月至少20TB的速度增长      3,瑞士日内瓦附近的大型强子对撞机每年产生15PB数据      我们有了大量的数据,可以从中分析出我们有用的信息,如单个用户浏览网页内容的偏好,发现潜在用户等,还有很多用于科学技术上的用处。

分布式 大数据 hdfs hadoop 数据库 数据仓库 集群 分布式计算 分布式文件系统 数据中心 zookeeper Mapreduce 存储

Hadoop、Hbase完全分布式搭建

一、Hadoop1.0到2.0的架构变化 1、Hadoop 2.0由HDFS、MapReduce和YARN三个分支构成 2、HDFSNN Federation、HA 3、MapReduce运行在YARN上的MR 4、YARN资源管理系统 二、HDFS 2.0 1、解决HDFS 1.0中单点故障和内存受限问题。

分布式 java hbase hdfs hadoop 单点故障 zookeeper Mapreduce JDK

一次Hadoop开发思路分享

困扰了自己1周的一个问题终于得到解决了,感谢给我帮助的同学,同时记录下来分享给大家. 问题简化描述: HDFS存在这样格式的文件:用户ID    主题ID    用户对此主题的偏好分数score。

hdfs hadoop 排序 list Mapreduce

hadoop1.2.1集群安装过程详解

hadoop集群安装过程详解 一,环境: 1,主机规划: 集群中包括4个节点:1个Master,2个Salve,节点之间局域网连接,可以相互ping通。 机器名称 IP地址 hadoop01 192.168.0.31 hadoop02 192.168.0.32 hadoop03 192.168.0.33 三个节点上均是CentOS6.3 x86_64系统,并且有一个相同的用户hadoop。

java hdfs hadoop 日志 配置 集群 主机 xml vim

你用pig分析access_log日志中ip访问次数

环境说明: os版本:rhel5.7 64位 hadoop版本:hadoop-0.20.2 hbase版本:hbase-0.90.5 pig版本:pig-0.9.2 访问日志文件,下载文章中的附件! 日志放在本地目录路径为:/home/hadoop/access_log.

hbase hdfs hadoop 日志 LOG Apache test Group thread input

hadoop插件sqoop使用案例

sqoop是hadoop项目中一个插件,可以把分布式文件系统hdfs中内容导入到mysql指定表里面,也可以把mysql中内容导入到hdfs文件系统中进行后续操作。 测试环境说明: hadoop版本:hadoop-0.20.2 sqoop版本:sqoop-1.2.0-CDH3B4 java版本:jdk1.7.0_67 mysql版本:5.1.65 特别说明: 因为我安装的是hadoop-0.20.2版本,sqoop不支持这个版本,但是可以使用CDH3版本的hadoop,也可以通过copy相关文件,达到目的。

mysql hdfs hadoop path 测试 分布式文件系统 插件 sqoop

利用开源日志收集软件fluentd收集日志到HDFS文件系统中

说明:本来研究开源日志的系统是flume,后来发现配置比较麻烦,网上搜索到fluentd也是开源的日志收集系统,配置简单多了,性能不错,所以就改研究这个东东了!官方主页,大家可以看看:fluentd.

hdfs hadoop 日志 LOG 配置 测试 ruby plugin Access Security

开源日志收集软件fluentd 转发(forward)架构配置

需求: 通过开源软件fluentd收集各个设备的apache访问日志到fluentd的转发服务器中,然后通过webHDFS接口,写入到hdfs文件系统中。 软件版本说明: hadoop版本:1.1.

架构 服务器 hdfs hadoop 日志 LOG Apache path 配置 测试 node Server test 离线分析 source

利用pig分析cdn访问日志内指定时间段的url访问次数

需求说明: 由于cdn收费是按照最高带宽收费的,但是公司平台平均使用cdn带宽为100M多,但是有几个时间点的带宽,突然涨到300M,但是不到5分钟就回落下来了,但就是为5分钟的高出的带宽,公司就要多付费用,不划算,所以要配合研发分析峰值左右前后5分钟的url访问次数,定位问题! cdn流量图如...

hdfs hadoop 日志 LOG cdn 正则表达式 BY url 带宽 Group

Flume-ng HDFS sink原理解析

HDFS sink主要处理过程在process方法: //循环batchSize次或者Channel为空 for(txnEventCount = 0; txnEventCount < batchSize; txnEventCount++) { //该方法会调用BasicTransactionSemantics的具体实现 Event event = channel.

hdfs 线程 open

一个存疑的Hive Case——MapRedTask Slow

线上Hadoop做压缩格式更新,默认的从GZip转到Snappy,并重启了HDFS/MAPREDUCE集群,突然发现一个Hive Script Job从原来的12分钟缩短到4分钟并稳定跑了2天,并且该Job agent Server上的所有Hive Script Job的运行时间都缩短了;首先分析...

服务器 hdfs 日志 线程 集群 agent Server Hive Mapreduce

Flume-ng HDFS Sink “丢数据”

线上对Flume流入HDFS配置path:p1,每分钟切一个文件,定期从p1从move完成的(rename)文件到外部表进行计算分析,发现有“丢数据”现象:即在p1下经常看到几GB的.tmp文件,查看Flume日志发现当出现CallTimeout Exception :HDFS IO ERROR后,sink一直向.

hdfs 源码 exception cto Blog

Impala 需要的HDFS参数简析

安装Impala时需要调整几个HDFS参数,以达到最佳性能: 1.dfs.client.read.shortcircuit(必选): 当设置这个参数后,客户端callblockSeekTo(target)会去获取一个BlockReaderLocal,不过这里注意,当block复制未完成时不可进行shortcircuit read(HDFS-2757:https://issues.

hdfs Cache checksum read

55
GO