如何搭建Hadoop集群环境

简介:

第一步:安装

(1) 下载hadoop包 http://hadoop.apache.org/

(2) 登录需要配置hadoop的服务器(HadoopSrv01) su -gird(官方建议用grid账户搭建)

(3) 解压 tar -xvf hadoop-2.1.0-bin.tar.gz 到一个目录比如/home/gird

(4) 进入/home/gird 创建临时目录 tmp

(5) 配置 hadoop-env.sh, core-site.xml, hdfs-site.xml,mapred-site.xml ,masters,slaves文件

(6) 修改hadoop-env.sh 文件,只需要设置 export JAVA_HOME=/usr/java/jdk1.7.0 即可,其他不需要修改。

(7) 修改core-site.xml 文件,增加以下内容

<property>

<name>default.name</name>

<value>http://HadoopSrv01:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/gird/hadoop-2.1.0/tmp</value>

</property>

(8) 修改hdfs-site.xml,根据你自己的datanode节点数,设置复制因子。

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

(9) 修改mapred-site.xml文件

<property>

<name>mapred.job.tracker</name>

<value>HadoopSrv01:9001</value>

</property>

(10) 修改masters,slaves 增加namenode,datanode节点配置。

masters:

HadoopSrv01

slaves:

HadoopSrv02

HadoopSrv03

(11) 格式化Hadoop集群 bin/hadoop namenode -format

(12) 启动集群 bin/start-all.sh

(13)检查后台进程是否OK /usr/java/jdk1.7.0/bin/jps

NameNode,JobTracker,DataNode,TaskTracker

如果以上都能看到,就说明Hadoop分布式环境搭建好了

 

第二步:测试

(1) 进入cd /home/gird mkdir input

(2) cd input

(3)通过输出重定向的方式,新增两个txt文件

echo "Hi everyone">Text1.txt  

echo "Hi,Hadoop">Text2.txt

(4) 查看Hadoop HDFS里是否有东西 

cd /home/gird/hadoop-2.1.0/bin/hadoop  fs -ls

返回:ls: Cannot  access .: No such file or directory

(5)把input目录下的文件拷贝到hadoop in目录下

 bin/hadoop fs -put ../put  ./in

 提示错误:

 put: org.apache.hadoop.hdfs.server .namenode.SafeModeException: Cannot create directory /user/gird/in. Name node is in safe mode.

执行:/home/gird/hadoop-2.1.0/bin/hadoop dfsadmin -safemode leave

(6) 执行example jar 进行统计分析。

 /home/gird/hadoop-2.1.0/bin/hadoop jar hadoop-examples-2.1.0.jar wordcount in out

(7) 查看执行输出文件。 

bin/hadoop fs -cat ./out/part-r-00000

返回:

Hadoop 1

Hi 2

everyone 1

 

第三步:配置SSH验证

 

(1) 依次登录登录到 HadoopSrv01,HadoopSrv02,HadoopSrv03,先进行(1),(2),(3)操作,然后进行第(4)步骤操作:

 

(1):su - grid

(2): ssh-keygen -t rsa  全部默认,直接回车,不需要输入任何东西。

(3): cd .ssh 进入.ssh目录

(4):  

HadoopSrv01上:

scp id_rsa.pub 

scp id_rsa.pub 

 

HadoopSrv02上:

scp id_rsa.pub 

scp id_rsa.pub 

    

HadoopSrv03上:

scp id_rsa.pub 

scp id_rsa.pub 

 

(2) 测试

ssh hostname 如果不需要输入密码就证明设置成功了。


目录
相关文章
|
5月前
|
分布式计算 运维 Hadoop
42 Hadoop的HA集群的安装部署
42 Hadoop的HA集群的安装部署
64 0
|
4天前
|
分布式计算 负载均衡 Hadoop
Hadoop集群节点添加
Hadoop集群节点添加
|
9天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
36 9
|
10天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
22 4
|
12天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
14天前
|
分布式计算 Hadoop Java
centos 部署Hadoop-3.0-高性能集群(一)安装
centos 部署Hadoop-3.0-高性能集群(一)安装
14 0
|
4月前
|
SQL 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.08 部署Ambari集群
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
83 0
Hadoop学习笔记(HDP)-Part.08 部署Ambari集群
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop集群基本测试
Hadoop集群基本测试
22 0
|
3月前
|
分布式计算 Hadoop Java
linux上面hadoop配置集群
linux上面hadoop配置集群
46 0
|
4月前
|
分布式计算 Hadoop Windows
解决Windows环境下hadoop集群的运行
解决Windows环境下hadoop集群的运行
35 0

热门文章

最新文章