《Hadoop与大数据挖掘》——2.2　Hadoop配置及IDE配置-阿里云开发者社区

《Hadoop与大数据挖掘》——2.2　Hadoop配置及IDE配置

2017-07-03 2781

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.2节，作者张良均樊哲位文超刘名军许国杰周龙焦正升，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2　Hadoop配置及IDE配置

2.2.1　准备工作

上面的虚拟机参数配置只是参考，可以根据自身机器的实际情况进行调整。

在配置好Hadoop集群所需机器后，先确认下集群拓扑，本次部署采用的集群拓扑如图2-16所示。

如文中未做说明，则所有操作都是在root用户下执行。但是，在生产环节，一般不会使用root用户，这点需要注意。

2.2.2　环境配置

1.安装JDK

（1）文件下载

到www.oracle.com网站上下载自己系统对应JDK版本。文件名如jdk-7u-linux-x64.tar.gz，注意下载64位的版本。

（2）解压文件

把下载下来的文件上传到Linux机器，并解压缩到某个路径下，如/usr/local目录。

mv jdk-7u<version>-linux-x64.tar.gz /usr/ local
tar zxvf jdk-7u<version>-linux-x64.tar.gz

（3）配置Java环境变量

编辑/etc/profile文件，在末尾加上Java配置，如代码清单2-1所示。

2.配置ssh无密码登录

1）生成公钥和私钥，执行ssh-keygen –t rsa，接着按3次Enter键即可，如代码清单2-2所示。

在~/.ssh目录生成两个文件，id_rsa为私钥，id_rsa.pub为公钥。

2）设置hosts文件。在/etc/hosts文件中配置IP与HOSTNAME的映射（IP根据自己机器情况设置），如代码清单2-3所示。

3）导入公钥到认证文件，执行ssh-copy-id命令，如代码清单2-4所示。

接着分别执行：

ssh-copy-id -i /root/.ssh/id_rsa.pub slave1
ssh-copy-id -i /root/.ssh/id_rsa.pub slave2
ssh-copy-id -i /root/.ssh/id_rsa.pub slave3

即可导入公钥到其他所有子节点。

4）验证。打开终端，直接输入ssh master、ssh slave1、ssh slave2、ssh slave3，如果可直接登录，而不需要输入密码，则ssh无密码登录配置成功。

[root@master ~]# ssh master
Last login: Tue Nov  3 18:39:41 2015 from 192.168.0.1

3.配置NTP

配置NTP主要是为了进行集群间的时间同步，需要注意在master、slave1、slave2、slave3节点分别执行“yum install ntp”，即可安装该软件。

假设将Master节点作为NTP服务主节点，那么其配置（修改/etc/ntp.conf文件）如代码清单2-5所示。

在slave1~slave3配置NTP，同样修改/etc/ntp.conf文件，内容如代码清单2-6所示。

在master、slave1、slave2、slave3节点执行“service ntpd start &chkconfig ntpd on”，即可启动并永久启动NTP服务。

4.配置Hadoop集群

上传Hadoop安装包到master机器，并解压缩到/usr/local目录，使用代码：

tar -zxf hadoop-2.6.0.tar.gz -C /usr/local

Hadoop配置涉及的配置文件有以下7个：

各个配置文件修改如下所示。

1）配置文件1：hadoop-env.sh。

该文件是Hadoop运行基本环境的配置，需要修改为JDK的实际位置。故在该文件中修改JAVA_HOME值为本机安装位置，如代码清单2-7所示。

2）配置文件2：yarn-env.sh。

该文件是YARN框架运行环境的配置，同样需要修改Java所在位置。在该文件中修改JAVA_HOME值为本机安装位置，如代码清单2-8所示。

3）配置文件3：slaves。

该文件里面保存所有slave节点的信息，如代码清单2-9所示。

4）配置文件4：core-site.xml，配置内容如代码清单2-10所示。

这个是Hadoop的核心配置文件，这里需要配置两个属性：fs.defaultFS配置了Hadoop的HDFS系统的命名，位置为主机的8020端口，这里需要注意替换hdfs://master:8020，中的斜体master，该名字为NameNode所在机器的机器名；hadoop.tmp.dir配置了Hadoop的临时文件的位置。

5）配置文件5：hdfs-site.xml，配置内容如代码清单2-11所示。

这个是HDFS相关的配置文件，dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了NameNode元数据和DataNode数据存储位置；dfs.namenode.secondary.http-address配置的是SecondaryNameNode的地址，同样需要注意修改“master”为实际Secondary-NameNode地址；dfs.replication配置了文件块的副本数，默认就是3个，所以这里也可以不配置。

6）配置文件6：mapred-site.xml，配置内容如代码清单2-12所示。

这个是MapReduce相关的配置，由于Hadoop2.x使用了YARN框架，所以必须在ma-preduce.framework.name属性下配置yarn。mapreduce.jobhistory.address和mapreduce.job-history.webapp.address是与JobHistoryServer相关的配置，即运行MapReduce任务的日志相关服务，这里同样需要注意修改“master”为实际服务所在机器的机器名。

7）配置文件7：yarn-site.xml，配置内容如代码清单2-13所示。