阿里云ECS构建大数据平台实践-基于Apache Hadoop

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 基于阿里云ECS云服务器进行搭建私有的大数据平台,采用Apache Hadoop生态,为大数据提供存储及处理。

0. 项目背景

基于阿里云ECS云服务器进行搭建私有的大数据平台,采用Apache Hadoop生态,为大数据提供存储及处理。


1. 购买ECS云服务器实例

在这里,因为实验需要3个节点,所以我们购买3台ECS实例。


b7a8ceb2e5d2009acfcc93352262ab22084eed9c
8e8e45292577f6ddbdc43c6a4a11a54b899692fd

2. 远程登录服务器,进行基础环境的配置。

# 工欲善其事,必先利其器

# 前提准备


# 安装系统命令

yum -y install wget vim ntpdate net-tools ntpdate


2.1 节点信息

172.18.53.98 master

172.18.53.99 slave1

172.18.53.100 slave2


2.2 修改主机名,每一个节点都需要修改。

76b34f7540a6724f100d02d7ede036d2931c1116

2.3 配置主机文件(每一个节点都需要执行)

vi /etc/hosts
172.18.53.98 master
172.18.53.99 slave1
172.18.53.100 slave2

f8b35d502324f21f724b2d5f92a5dcca244e8fa8

2.4 系统防火墙和内核防火墙配置(每一个节点都需要执行)

# 临时关闭内核防火墙

setenforce 0

# 永久关闭内核防火墙

vi /etc/selinux/config
SELINUX=disabled

0bd06bcd70b17d1ae79cc6019b69e6b5f1ee2c4f

# 临时关闭系统防火墙

systemctl stop firewalld.service

# 永久关闭内核防火墙

systemctl disable firewalld.service
6a67f26ade4ee32271cb584c7993fdd686fdedea

2.5 SSH互信配置

ssh-keygen -t rsa

# 三次回车生成密钥(每一个节点都需要执行)

0a8a8e3d25000ba0f5962c89c980f2640d5c2cd0

# 生成公钥(主节点执行)

cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys
chmod 600 /root/.ssh/authorized_keys

# 复制其他节点的公钥(主节点执行)

ssh slave1 cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
ssh slave2 cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

b33b0d10d8ea8c1303e8672658448175e67e4503

# 复制公钥到其他节点(主节点执行)

scp /root/.ssh/authorized_keys root@slave1:/root/.ssh/authorized_keys
scp /root/.ssh/authorized_keys root@slave2:/root/.ssh/authorized_keys

22bff3ea90a8ea757d0e874ee6129f0231240b5c

# 免密SSH测试

ssh slave1 ip addr
ssh slave2 ip addr

de27e8025cb95a66288266c023a563d2dd6ae396

到这一步,我们已经搞定了基础环境的配置,主要是针对时间、主机名、防火墙等服务进行配置。

3. JDK环境的安装

cd /usr/local/src
tar zxvf jdk-8u191-linux-x64.tar.gz

# 配置环境变量,在配置最后加入

vim /etc/profile
JAVA_HOME=/usr/local/src/jdk1.8.0_191
JAVA_BIN=/usr/local/src/jdk1.8.0_191/bin
JRE_HOME=/usr/local/src/jdk1.8.0_191/jre
CLASSPATH=/usr/local/src/jdk1.8.0_191/jre/lib:/usr/local/src/jdk1.8.0_191/lib:/usr/local/src/jdk1.8.0_191/jre/lib/charsets.jar
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

785594ae752e34aff7a41f4ec7664a760a9e488a

# 复制环境变量到其他节点

scp /etc/profile root@slave1:/etc/profile
scp /etc/profile root@slave2:/etc/profile


# 复制JDK包到其他节点

scp -r /usr/local/src/jdk1.8.0_191 root@slave1:/usr/local/src/jdk1.8.0_191
scp -r /usr/local/src/jdk1.8.0_191 root@slave2:/usr/local/src/jdk1.8.0_191

# 重新加载环境变量

source /etc/profile


# 测试环境是否配置成功

java -version
fbc5393be321d6d20de5a4ead138f8b4d2a7704a


到这一步,我们已经安装和配置了JAVA运行环境,因为Hadoop是Java开发的,所以我们必须需要在JAVA环境上运行Hadoop。


5. Hadoop环境安装

# 解压Hadoop包

cd /usr/local/src
tar zxvf hadoop-2.6.5.tar.gz 

# 修改配置文件 在第24行添加Java的环境变量

cd hadoop-2.6.5/etc/hadoop/
vim hadoop-env.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_191

b82c2983e9658bf8e428eba4c242f3cda3dc8186


# 修改配置文件 在第24行添加Java的环境变量

vim yarn-env.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_191

350fa25cdcdfcb839904f2f4b996ad61ac1e6d51

# 修改配置文件 添加从节点主机名

vim slaves
slave1
slave2

b5ddc8f0c907306906c0198a5565140c8c101bbe


# 修改配置文件 添加RPC配置

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://172.18.53.98:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/src/hadoop-2.6.5/tmp</value>
        </property>
</configuration>
10523bb35a494960438c830c5ef75d7448709623

# 修改配置文件 添加DFS配置

<configuration>
	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>master:9001</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:/usr/local/src/hadoop-2.6.5/dfs/name</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:/usr/local/src/hadoop-2.6.5/dfs/data</value>
	</property>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
</configuration>

7cae093069e35623b24e93b854750865518a0407


# 修改配置文件 添加MR配置

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

ec30bd722f21d88c36c06352074f6c8f3506cd51

# 修改配置文件 添加资源管理配置

<configuration>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
	</property>
	<property>
		<name>yarn.resourcemanager.address</name>
		<value>master:8032</value>
	</property>
	<property>
		<name>yarn.resourcemanager.scheduler.address</name>
		<value>master:8030</value>
	</property>
	<property>
		<name>yarn.resourcemanager.resource-tracker.address</name>
		<value>master:8035</value>
	</property>
	<property>
		<name>yarn.resourcemanager.admin.address</name>
		<value>master:8033</value>
	</property>
	<property>
		<name>yarn.resourcemanager.webapp.address</name>
		<value>master:8088</value>
	</property>
</configuration>


2503a66a7b79f85ef4d64e8634116fb5ed4edfae


# 创建临时目录和文件目录

mkdir /usr/local/src/hadoop-2.6.5/tmp
mkdir -p /usr/local/src/hadoop-2.6.5/dfs/name
mkdir -p /usr/local/src/hadoop-2.6.5/dfs/data


# 配置环境变量,在配置最后加入

vim /etc/profile
HADOOP_HOME=/usr/local/src/hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin

# 复制环境变量到从节点

scp /etc/profile root@slave1:/etc/profile
scp /etc/profile root@slave2:/etc/profile

# 复制Hadoop包到从节点
scp -r /usr/local/src/hadoop-2.6.5 root@slave1:/usr/local/src/hadoop-2.6.5
scp -r /usr/local/src/hadoop-2.6.5 root@slave2:/usr/local/src/hadoop-2.6.5

# 重新加载环境变量
source /etc/profile

# 格式化Namenode
hadoop namenode -format
a98d62aa03aa08cac44a97b1af08c4eba3a9d743

# 提示下列内容即是成功完成格式化

common.Storage: Storage directory /usr/local/src/hadoop-2.6.5/dfs/name has been successfully formatted


# 启动集群

/usr/local/src/hadoop-2.6.5/sbin/start-all.sh

f6a9aac788bfba042e6be6d7f5d67dd8555633b5

# 查看服务进程

# Master: ResourceManager - Namenode - SecondaryNameNode

07828e3b12e13c695067d6cfc6e859aa77c3908c

# Slave: NodeManager - DataNode

6f1053e700be4383ec2cfd163651a140dec5a48b 4b97077a70101fd1b61f9f3517bb301d4249395e

# 网页控制台 (需要修改本地hosts文件 添加主机记录)

# Windows C:\Windows\System32\drivers\etc

# Linux /etc/hosts

# Mac /etc/hosts

63d9041dd9066570fb8ea21602bd818bfef61aa7

# Yarn管理界面

# 浏览器访问 http://master:8088/cluster

9b669ee322924b569784877931b708833f10a4af

# HDFS管理界面

# 浏览器访问 http://master:50070

93cfed35e8888d99197423ba7e8c921a49dbdccd




目录
相关文章
|
11天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
33 2
|
1月前
|
缓存 安全 Java
阿里云数据库 SelectDB 内核 Apache Doris 2.0.6 版本正式发布
阿里云数据库 SelectDB 内核 Apache Doris 2.0.6 版本正式发布
|
1月前
|
消息中间件 存储 关系型数据库
使用Apache Hudi构建下一代Lakehouse
使用Apache Hudi构建下一代Lakehouse
38 0
|
11天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
6天前
|
消息中间件 存储 Java
深度探索:使用Apache Kafka构建高效Java消息队列处理系统
【4月更文挑战第17天】本文介绍了在Java环境下使用Apache Kafka进行消息队列处理的方法。Kafka是一个分布式流处理平台,采用发布/订阅模型,支持高效的消息生产和消费。文章详细讲解了Kafka的核心概念,包括主题、生产者和消费者,以及消息的存储和消费流程。此外,还展示了Java代码示例,说明如何创建生产者和消费者。最后,讨论了在高并发场景下的优化策略,如分区、消息压缩和批处理。通过理解和应用这些策略,可以构建高性能的消息系统。
|
13天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
51 1
|
21天前
|
机器学习/深度学习 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。
198 1
|
30天前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
1月前
|
存储 SQL 数据管理
阿里云数据库 SelectDB 内核 Apache Doris 如何基于自增列满足高效字典编码等典型场景需求|Deep Dive 系列
自增列的实现,使得 Apache Doris 可以在处理大规模时展示出更高的稳定性和可靠性。通过自增列,用户能够高效进行字典编码,显著提升了字符串精确去重以及查询的性能。使用自增列作为主键来存储明细数据,可以完美的解决明细数据更新的问题。同时,基于自增列,用户可以实现高效的分页机制,轻松应对深分页场景,有效过滤掉大量非必需数据,从而减轻数据库的负载压力,为用户带来了更加流畅和高效的数据处理体验。
|
1月前
|
SQL 数据可视化 Apache
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
阿里云数据库 SelectDB 内核 Doris 的 SQL 方言转换工具, Doris SQL Convertor 致力于提供高效、稳定的 SQL 迁移解决方案,满足用户多样化的业务需求。兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移。
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移

热门文章

最新文章

推荐镜像

更多