E-MapReduce集群搭建HAWQ实践

简介: HAWQ是一种基于HDFS的MPP(Massively Parallel Processing) SQL引擎,支持标准SQL/事务处理,性能比原生Hive快几百倍。本文介绍在E-MapReduce集群上面如何搭建HAWQ。

HAWQ是一种基于HDFS的MPP(Massively Parallel Processing) SQL引擎,支持标准SQL/事务处理,性能比原生Hive快几百倍。

 本文介绍在E-MapReduce集群上面如何搭建HAWQ。

零、 部署模式

HAWQ有多种部署模式

  • 非HA

    • standalone
    • yarn
  • HA

    • standalone
    • yarn

本文以HA-yarn模式为例,其它部署模式配置方面相对简单点,可以参考文档。

一、创建集群

在E-MapReduce产品页创建集群,本例使用HA集群。

5台机器:

    master:emr-header-1
    standby:emr-header-2
    slaves:
      emr-worker-1 
      emr-worker-2
      emr-worker-3

二、部署HAWQ

1. 添加gpadmin账号

在集群的所有机器上面操作:

  > sudo su hadoop
  > sudo useradd -G hadoop gpadmin
  > sudo passwd gpadmin  # 设置一个密码
  > sudo vi /etc/sudoers 
   末尾添加 gpadmin    ALL=(ALL)       NOPASSWD: ALL  并保存

2. 安装hawq

master节点

  • 安装hawq

       > sudo su root
       > wget http://emr-agent-pack.oss-cn-hangzhou.aliyuncs.com/hawq/hawq-2.0.0.0-22126.x86_64.rpm
       > rpm -ivh hawq-2.0.0.0-22126.x86_64.rpm 
  • 打通ssh

       > sudo su gpadmin
       > vi hosts ## 添加集群所有节点的IP
       > vi segment ## 添加所有slave节点的IP
       > vi masters ## 添加所有master/standby节点的IP
       > source /usr/local/hawq/greenplum_path.sh
       > hawq ssh-exkeys -f hosts  
  • 修改系统参数

    > hawq ssh -f hosts -e 'sudo sysctl -w kernel.sem=\"50100 128256000 50100 2560\"'
  • 安装其它节点HAWQ

      > hawq scp -f hosts  hawq-2.0.0.0-22126.x86_64.rpm =:~/
      > hawq ssh -f hosts -e "sudo rpm -ivh ~/hawq-*.rpm"
  • 创建HAWQ相关文件夹

     > hawq ssh -f masters -e 'sudo mkdir /mnt/disk{2..4}'
     > hawq ssh -f masters -e 'sudo chown hdfs:hadoop /mnt/disk{2..4}' 
     > hawq ssh -f masters -e 'sudo chmod 770 /mnt/disk{2..4}'
     > hawq ssh -f masters -e 'mkdir -p  /mnt/disk1/hawq/data/master'
     > hawq ssh -f segment -e 'mkdir -p  /mnt/disk1/hawq/data/segment'
     > hawq ssh -f hosts -e 'mkdir -p  /mnt/disk{1..4}/hawq/tmp'
  • 修改yarn为capacity-scheduler调度模式

        > vi /etc/emr/hadoop-conf/yarn-site.xml
    
       添加属性:
       <property>
          <name>yarn.resourcemanager.scheduler.class</name>       <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
       </property>
    
       将master的yarn-site.xml同步到其它所有节点
       重启集群yarn
  • 修改HAWQ配置

       > vi /usr/local/hawq/etc/hawq-site.xml
       修改如下属性
属性名 说明
hawq_master_address_host emr-header-1
hawq_standby_address_host emr-header-2
hawq_dfs_url emr-cluster/hawq_default
hawq_master_directory /mnt/disk1/hawq/data/master
hawq_segment_directory /mnt/disk1/hawq/data/segment
hawq_master_temp_directory /mnt/disk1/hawq/tmp,/mnt/disk2/hawq/tmp,/mnt/disk3/hawq/tmp,/mnt/disk4/hawq/tmp
hawq_segment_temp_directory /mnt/disk1/hawq/tmp,/mnt/disk2/hawq/tmp,/mnt/disk3/hawq/tmp,/mnt/disk4/hawq/tmp
hawq_global_rm_type yarn
hawq_rm_yarn_address emr-header-1:8032,emr-header-2:8032
hawq_rm_yarn_scheduler_address emr-header-1:8030,emr-header-2:8030
> vi /usr/local/hawq/etc/hdfs-client.xml
#打开HA的注释
属性名 说明
dfs.nameservices emr-cluster
dfs.ha.namenodes.emr-cluster nn1,nn2
dfs.namenode.rpc-address.emr-cluster.nn1 emr-header-1:8020
dfs.namenode.rpc-address.emr-cluster.nn2 emr-header-2:8020
dfs.namenode.http-address.emr-cluster.nn1 emr-header-1:50070
dfs.namenode.http-address.emr-cluster.nn2 emr-header-2:50070
 > vi /usr/local/hawq/etc/yarn-client.xml
#打开HA的注释
属性名 说明
yarn.resourcemanager.ha emr-header-1:8032,emr-header-2:8032
yarn.resourcemanager.scheduler.ha emr-heaer-1:8030,emr-header-2:8030
> vi  /usr/local/hawq/etc/slaves #添加segment节点IP

综上修改完master节点的HAWQ配置之后,需要同步到其它所有节点

> hawq scp -f hosts /usr/local/hawq/etc/yarn-client.xml /usr/local/hawq/etc/hdfs-client.xml /usr/local/hawq/etc/hawq-site.xml /usr/local/hawq/etc/slaves =:/usr/local/hawq/etc/

3.启动HAWQ集群

 > hawq init cluster

4. 验证

> psql -d postgres

postgres=# create database mytest;
CREATE DATABASE

postgres=# \c mytest
You are now connected to database "mytest" as user "gpadmin".

mytest=# create table t (i int);
CREATE TABLE

mytest=# insert into t select generate_series(1,100);
INSERT 0 100

mytest=# \timing
Timing is on.

mytest=# select count(*) from t;
 count
-------
   100
(1 row)

Time: 77.333 ms

mytest=# select * from t;

三、参考资料

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
1月前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
4月前
|
分布式计算 Java Hadoop
IDEA 打包MapReduce程序到集群运行的两种方式以及XShell和Xftp过期的解决
IDEA 打包MapReduce程序到集群运行的两种方式以及XShell和Xftp过期的解决
|
4月前
|
分布式计算 Hadoop Java
【集群模式】执行MapReduce程序-wordcount
【集群模式】执行MapReduce程序-wordcount
|
7月前
|
数据库 数据安全/隐私保护
阿里云E-MapReduce集群-开源Ldap密码不安全问题解决方案
社区开源Ldap密码不安全问题解决方案
|
8月前
|
分布式计算 资源调度 Hadoop
Hadoop基础学习---5、MapReduce概述和WordCount实操(本地运行和集群运行)、Hadoop序列化
Hadoop基础学习---5、MapReduce概述和WordCount实操(本地运行和集群运行)、Hadoop序列化
|
存储 分布式计算 监控
Hadoop, Hadoop涉及到的一些常见概念(分布式与集群、HDFS、MapReduce等),Hadoop怎么用?
Hadoop, Hadoop涉及到的一些常见概念(分布式与集群、HDFS、MapReduce等),Hadoop怎么用?
426 0
|
消息中间件 分布式计算 关系型数据库
Kafka-HBase-MapReduce-Mysql 连接实践 通话记录
Kafka-HBase-MapReduce-Mysql 连接实践 通话记录
88 0
Kafka-HBase-MapReduce-Mysql 连接实践 通话记录
uiu
|
存储 分布式计算 资源调度
MapReduce 原理与实践
MapReduce 原理与实践
uiu
238 0
MapReduce 原理与实践
|
弹性计算 分布式计算 Java
E-MapReduce集群-JAVA客户端远程连接HDFS
阿里云E-MapReduce集群-JAVA客户端远程连接HDFS
|
分布式计算 资源调度 Java
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操