1. 云栖社区>
  2. 全部标签>
  3. #hadoop#
hadoop

#hadoop#

已有10人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

hadoop的部署以及应用

1.基础环境 1 2 3 4 5 6 7 8 9 10 [hadoop@master ~]$ cat  /etc/redhat-release  CentOS Linux release 7.

java hdfs hadoop file Mapreduce

find命令的练习

var目录下属主为root,且属组为mail的所有文件或目录  查找usr目录 下不属于root,bin或hadoop的所有文件或目录  查找etc目录 下 最近一周内其内容修改过,同时属主不为root,也不是hadoop的文件或目录  杳找当前 系统上,没有属主或属组,且最近一个周内曾被访问过...

hadoop Group Blog

[Hadoop] 第一篇 Hadoop 安装步骤

一 安装JDK 1.下载JDK 目前最新JDK:Java SE Development Kit 8u91 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.

linux java jvm hadoop ubuntu 配置 SSH JDK

搭建部署Hadoop 之 HDFS

HDFS  Hadoop 分布式文件系统 分布式文件系统 分布式文件系统可以有效解决数据的存储和管理难题 – 将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统 – 众多的节点组成一个文件系统网络 – 每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输 – 人们在使用分布式文件系统时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据 HDFS 角色及概念 • 是Hadoop体系中数据存储管理的基础。

java hdfs hadoop yum 配置 Cache 分布式文件系统 数据存储

搭建部署Hadoop 之Yarn

Yarn 集群资源管理系统 Yarn 角色及概念 •Yarn 是 Hadoop 的一个通用的资源管理系统 • Yarn 角色     – Resourcemanager     – Nodemanager     – ApplicationMaster     – Container    ...

监控 hadoop 配置 node input

HDFS进阶应用 配置 NFS 网关

HDFS进阶应用 配置NFS 网关 • NFS 网关用途     – 1.用户可以通过操作系统兼容的本地NFSv3客户端来阅览HDFS文件系统     – 2.用户可以从HDFS文件系统下载文档到本地文件系统     – 3.用户可以通过挂载点直接流化数据。

hdfs hadoop yum 配置 主机 NFS

腾讯大规模Hadoop集群实践

TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。

架构 hadoop 日志 线程 高可用 集群 同步 磁盘 zookeeper 存储

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理的总CPU进行控制。

hadoop Apache 配置 集群 测试 e-mapreduce CPU yarn cgroups

Kubernetes vs Mesos

当前国内最火的容器集群管理非Kubernetes和Mesos莫属,那么这两种解决方案各自的应用场景和解决的痛点分别是什么呢,这篇内容就来带大家简单的聊一聊他们各自特性,内容来自于网络上各位大咖的总结,就当是一篇随笔记录吧。

hadoop 数据处理 高可用 集群 可扩展性 主机 容器 Mesos

使用Ambari搭建Hadoop集群

Hadoop 介绍 Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:MapReduce和HDFS。

分布式 java 监控 hdfs hadoop Apache 数据库 yum 配置 镜像 集群 node Server Mariadb Ambari

scp传输常用命令

   scp -r filename root@42.51.x.x:/home2.linux传输到Windows   scp -r filename administrator@42.51.x.:/d例子:将当前Linux中的hadoop文件夹拷贝到Hadoop-NN-02下:scp -P 6000 -r /home/hadoopuser/hadoop hadoopuser@Hadoop-NN-02:/home/hadoopuser-P 6000 表示SSH登录端口为6000,默认22端口可省略。

linux 服务器 hadoop 加密 windows 配置 SSH

Hive性能优化(全面)

Hive性能优化(全面) 2018-02-02 Hadoop大数据应用 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。

性能优化 hadoop 性能 reduce 排序 Hive Group

Linux CentOS 7 Shell基础(命令历史,管道,作业控制,变量及环境变量)

一、 shell介绍 shell是一个命令解释器,提供用户和机器的交互。 支持特定语法,比如逻辑判断,循环。 每个用户都有特定的shell centos7默认shell 为bash(Bourne Agin Shell) 还用zsh,csh,ksh等 二、 命令历史history history 命令历史 history -c 清空内存缓存命令。

linux hadoop shell centos vim login Bash

小白学习大数据测试之hadoop初探

Hadoop的历史 这里就不多说了,网上很多资料,总而言之对于hadoop谷歌和雅虎对于ta的贡献功不可没。更多介绍请自行查看这里:https://baike.baidu.com/item/Hadoop/3526507?fr=aladdin Hadoop的应用场景 数据分析,如日志系统、推荐系统 离线计算 海量数据存储 Hadoop的核心 Hadoop的框架最核心的设计就是:HDFS和MapReduce。

大数据 hdfs hadoop 数据仓库 测试 分布式架构 离线计算 分布式文件系统 Mapreduce 存储 海量数据 推荐系统

大数据测试之hadoop单机环境搭建(超级详细版)

Hadoop的运行模式 单机模式是Hadoop的默认模式,在该模式下无需任何守护进程,所有程序都在单个JVM上运行,该模式主要用于开发和调试mapreduce的应用逻辑; 伪分布式模式下,Hadoop守护进程运行在一台机器上,模拟一个小规模的集群。

linux 分布式 大数据 java hdfs hadoop path 配置 集群 测试 xml

小白学习大数据测试之hadoop hdfs和MapReduce小实战

在湿货|大数据测试之hadoop单机环境搭建(超级详细版)这个基础上,我们来运行一个官网的MapReduce demo程序来看看效果和处理过程。 大致步骤如下: 新建一个文件test.txt,内容为 Hello Hadoop Hello xiaoqiang Hello testingbang Hello http://xqtesting.

大数据 hdfs hadoop 根目录 配置 浏览器 测试 test Mapreduce

shell高级用法--函数

在shell中如果一段代码需要反复被调用,则可以将该段代码定义称为函数,直接在后面的脚本中调用即可。定义函数的方法有两种: 1、function  functionname { } 2、functionname() { } 例如:定义一个添加用户hadoop的函数 1 2 3 4...

hadoop 函数 shell 主机 脚本 Ping Bash

快使搭建zookeeper集群

安装(2n-1)台linux虚拟机(因为zookeeper选举制度的半数规则),具体安装过程可参考 用工具上传zookeeper安装文件到/home目录下,并且发送给其他两台机器,发送指令为:scp /home/zookeeper root@ip:/home 解压文件并zookeeper文件,tar –zxvf zookeeper-3.4.5.tar.gz。

linux hadoop 防火墙 LOG path 集群 Server zookeeper

大数据基本概念

大数据概念想必大家都不陌生,毕竟是近年来最热门的话题之一。在计算机以及互联网如此普及的今天,我们所有人每天都会在互联网上产生大量的数据,例如在淘宝浏览商品时会产生数据,使用社交app进行即时通讯时也会产生数据,每天股市的上涨下跌及交易量也是数据.

大数据 架构 hadoop 数据库 google volume 数据中心 数据采集 velocity Mapreduce 存储 数据类型 数据存储 海量数据

hadoop随记(一)

    现在是一个大数据的年代,每天全球已电子方式存储数据的数据总量非常大。下面是部分例子:      1,facebook存储这约100亿张照片,越1PB存储容量      2,The Internet Archive(互联网档案馆)存储这约2PB数据,并以每月至少20TB的速度增长      3,瑞士日内瓦附近的大型强子对撞机每年产生15PB数据      我们有了大量的数据,可以从中分析出我们有用的信息,如单个用户浏览网页内容的偏好,发现潜在用户等,还有很多用于科学技术上的用处。

分布式 大数据 hdfs hadoop 数据库 数据仓库 集群 分布式计算 分布式文件系统 数据中心 zookeeper Mapreduce 存储

188
GO