Hadoop学习笔记一:单节点安装

简介: 通过本节的学习,可以掌握如何在单节点上使用Hadoop进行Map/Reduce以及HDFS存储的实现。 环境要求: 支持的平台:      支持GNU/Linux平台,可以作为测试和生产环境使用。

通过本节的学习,可以掌握如何在单节点上使用Hadoop进行Map/Reduce以及HDFS存储的实现。

环境要求:

支持的平台:

     支持GNU/Linux平台,可以作为测试和生产环境使用。Hadoop在2000个节点的生产环境中经受过考验。

     支持Win32平台作为测试环境,正式环境的测试还不够充分,所以发布版暂时不能支持Win32环境。

需要的软件:

     1、Java 1.6.x,必须。

     2、ssh、sshd,必须。

     如果是在Windows环境下,你也许需要 Cygwin。

安装必要的软件

     如果服务器没有必要的软件,就必须进行安装。不同的发行版本,有不同的安装方法。例如Ubuntu下:

     $ sudo apt-get install ssh

     $ sudo apt-get install rsync

下载Hadoop

     从 这里 下载一个Hadoop的稳定版本。

开始我们的Hadoop之旅

     解压下载的软件,在解压后的目录中,编辑 conf/hadoop-env.sh 脚本设置服务器的JAVA_HOME目录。

     我的环境是 Centos6.0,yum安装了OPEN-JDK,对应的目录为:

          /usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0/jre/

     执行 bin/hadoop 命令,如果如下图所示,我们就做好使用 Hadoop 的准备了。

Image(1)

     可以用三种方式使用Hadoop:

          本地模式(Local Standalone Mode);

          伪分布式模式(Pseudo-Distributed Mode);

          完全分布式模式;

本地模式

     默认情况下,Hadoop是配置为本地运行的,以一个单独的Java进程运行,这种方式非常适合Debug。

     在本地,我选择了对 194Mb 的访问日志进行分析,如下代码:

         bin/hadoop jar hadoop-examples-0.20.203.0.jar grep input/ output/ 'favicon[a-z.]+'

     这个任务是分析日志中出现的favicon的次数,统计结果如下:

Image(2)

     其中part文件中存储了我要查找的favicon字符串出现的次数。

伪分布式模式

配置:

     参照官方的配置进行,分别对conf/core-site.xml、conf/hdf-site.xml、conf/mapred-site.xml进行配置。配置的内容都比较类似,主要是配置一个服务器的主机名,然后配置对应的IP或值。

设置无需密码的SSH:

     按照官方的设置

     $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

     $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

     但是第一次登陆的时候始终需要提示是否保存,这个有点不得其解。

执行:

     首先格式化一个新的分布式文件系统

     $ bin/hadoop namenode -format

     完成后,会有一些提示,根据提示可以在 /tmp/hadoop-root/dfs 中找到两个文件夹。

     然后启动 Hadoop 的守护进程

     $ bin/start-all.sh

我在安装的过程中提示了未知的jvm参数,但是并没有重大的影响,启动仍正常结束了,不知道什么原因。

     这个问题是因为用root用户启动造成的,可以参考参考资料6中的方法,为hadoop这个文件打一个patch就可以解决。然后重新格式化namenode,进行测试。

      bin/hadoop jar hadoop-examples-0.20.203.0.jar grep logs output 'favicon'    

     执行上面的语句,可以对日志进行 WordCount 的分析。

     测试完成后,可以关闭所有的服务

bin/stop-all.sh

参考资料:

1、Single Node Setup

2、Hdfs Shell Handbook

3、Hdfs error:could only be replicated to 0 nodes instead of 1

4、Hadoop:Could not create Java Virtual Machine

5、Namenode not starting

6、Faile to start datanode while start-dfs.sh is executed by root user

相关文章
|
4月前
|
消息中间件 分布式计算 大数据
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
68 0
|
14天前
|
分布式计算 Hadoop Java
centos 部署Hadoop-3.0-高性能集群(一)安装
centos 部署Hadoop-3.0-高性能集群(一)安装
14 0
|
4月前
|
消息中间件 存储 分布式计算
Hadoop学习笔记(HDP)-Part.19 安装Kafka
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
73 0
Hadoop学习笔记(HDP)-Part.19 安装Kafka
|
3月前
|
分布式计算 资源调度 Hadoop
在Linux系统上安装Hadoop的详细步骤
【1月更文挑战第4天】在Linux系统上安装Hadoop的详细步骤
418 0
|
4月前
|
存储 分布式计算 Hadoop
hadoop 安装系列教程二——伪分布式
hadoop 安装系列教程二——伪分布式
45 0
|
4月前
|
分布式计算 Hadoop Java
hadoop系列——linux hadoop安装
hadoop系列——linux hadoop安装
76 0
|
4月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
259 0
|
4月前
|
分布式计算 Hadoop Java
Hadoop【部署 01】腾讯云Linux环境CentOS Linux release 7.5.1804单机版hadoop-3.1.3详细安装步骤(安装+配置+初始化+启动脚本+验证)
Hadoop【部署 01】腾讯云Linux环境CentOS Linux release 7.5.1804单机版hadoop-3.1.3详细安装步骤(安装+配置+初始化+启动脚本+验证)
87 0
|
4月前
|
消息中间件 存储 分布式计算
Hadoop学习笔记(HDP)-Part.20 安装Flume
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
54 0
Hadoop学习笔记(HDP)-Part.20 安装Flume
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop学习笔记(HDP)-Part.18 安装Flink
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
121 2
Hadoop学习笔记(HDP)-Part.18 安装Flink

热门文章

最新文章

相关实验场景

更多