Hadoop机架感知(rack-aware)配置指南

简介: Hadoop机架感知(rack-aware)配置副本的存放策略又是HDFS实现高可靠性和搞性能的关键,优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。

Hadoop机架感知(rack-aware)配置

副本的存放策略又是HDFS实现高可靠性和搞性能的关键,优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。大型HDFS实例一般运行在跨越多个机架的计算机组成的机群上,不同机架(rack)上的两台机器之间的通信需要经过交换机,这样会增加数据传输的成本。在大多数情况下,同一机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大(当前网络一般可以改造到不是瓶颈了)。
一方面,通过一个机架感知的过程,NameNode可以确定每个DataNode所属的机架ID。目前HDFS采用的策略就是将副本存放在不同的机架上,这样可以有效防止整个机架失效时数据的丢失,并且允许读数据的时候充分利用多个机架的带宽(直接提高hadoop的IO磁盘性能)。这种策略设置可以将副本均匀地分布在集群中,有利于组织失效情况下的负载均衡。但是,因为这种策略的一个写操作需要传输数据块到多个机架,这增加了写操作的成本。
另一方面,在读取数据时,为了减少整体的带宽小号和降低整体的带宽延时(将读取IO分布到各个不同的磁盘上),HDFS会尽量读取程序读取距离客户端最近的副本。如果在读取程序的同一个机架上有一个副本,那么就读取该副本;如果一个HDFS集群跨越多个数据中心,那么客户端也将首先读取本地数据中心的副本。
默认情况下,Hadoop的机架感知策略是未开启的,默认都是在同一个机架下面。下面叙述下配置步骤

1、创建sh脚本topology.sh
脚本位置自定义存放,这里存放在/usr/software/hadoop-2.7.3/sh

!/bin/bash

HADOOP_CONF=/usr/software/hadoop-2.7.3/sh
while [ $# -gt 0 ] ; do
nodeArg=$1
exec<${HADOOP_CONF}/topology.data
result=""
while read line ; do

ar=( $line )
if [ "${ar[0]}" = "$nodeArg" ]||[ "${ar[1]}" = "$nodeArg" ]; then
  result="${ar[2]}"
fi

done
shift
if [ -z "$result" ] ; then

echo -n "/default-rack"

else

echo -n "$result"

fi
done
在此要注意的是,要给topology.sh赋予可执行权限

2、配置机架数据
机架数据新建【topolopy.data】文件放置的位置是任意的,这里也放在/usr/software/hadoop-2.7.3/sh下,上面的这个shell文件用到了这个新建立的文件
第一列为IP地址, 第二列为主机名,第三列为机架位置

192.27.4.193 master /master/rack1
192.25.225.181 node1 /home/rack1
192.25.81.15 node2  /home/rack2

3、将脚本配置到hadoop的core-site.xml中

<property>
     <name>topology.script.file.name</name>
     <value>/usr/software/hadoop-2.7.3/sh/topology.sh</value>
</property>

4、检验配置
重启Hadoop(我的天那。。。。起不来怎么办?),输入命令

hdfs dfsadmin -printTopology

打印如下

至此看到rack1,rack2的输出,说明机架感知配置成功且已启用

相关文章
|
2月前
|
分布式计算 Hadoop Java
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
65 0
|
7月前
|
分布式计算 资源调度 Hadoop
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop 配置
core-site.xml 是 Hadoop 核心全局配置文件【2月更文挑战第20天】
28 1
|
3月前
|
分布式计算 Hadoop Java
linux上面hadoop配置集群
linux上面hadoop配置集群
46 0
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop【部署 02】hadoop-3.1.3 单机版YARN(配置、启动停止shell脚本修改及服务验证)
Hadoop【部署 02】hadoop-3.1.3 单机版YARN(配置、启动停止shell脚本修改及服务验证)
51 0
|
4月前
|
分布式计算 Hadoop Java
Hadoop【部署 01】腾讯云Linux环境CentOS Linux release 7.5.1804单机版hadoop-3.1.3详细安装步骤(安装+配置+初始化+启动脚本+验证)
Hadoop【部署 01】腾讯云Linux环境CentOS Linux release 7.5.1804单机版hadoop-3.1.3详细安装步骤(安装+配置+初始化+启动脚本+验证)
87 0
|
4月前
|
分布式计算 网络协议 Hadoop
大数据成长之路------hadoop集群的部署 配置系统网络(静态) 新增集群(三台)
大数据成长之路------hadoop集群的部署 配置系统网络(静态) 新增集群(三台)
27 0
|
4月前
|
SQL 消息中间件 分布式计算
Hadoop学习笔记(HDP)-Part.05 Yum源配置
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
67 0
|
6月前
|
分布式计算 Hadoop
Hadoop Hdfs配置过程全程报道
Hadoop Hdfs配置过程全程报道
|
7月前
|
分布式计算 Hadoop Linux

热门文章

最新文章

相关实验场景

更多