数据仓库的未来 MariaDB ColumnStore

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

Part1:写在最前

MariaDB ColumnStore is the future of data warehousing. ColumnStore allows us to store more data and analyze it faster. Everyday, Pinger’s mobile applications process millions of text messages and phone calls. We also process more than 1.5 billion rows of logs per day. Analytic scalability and performance is critical to our business. MariaDB’s ColumnStore manages massive amounts of data and will scale with Pinger as we grow.

                             ----from mariadb.com


Part2:大牛如何说

MariaDB ColumnStore是在MariaDB 10.1基础上移植了InfiniDB4.6.2构建的大规模并行,高性能,压缩,分布式开源列式存储引擎,类似收费产品Infobright。它设计用于大数据离线分析,用来抗衡Hadoop。你可以使用标准SQL语句进行查询,支持目前流行的sqlyog/navicat客户端工具连接,对业务方使用没有任何的不便,并且你不需要创建任何索引,不需要修改业务方的复杂SQL(自身就支持复杂的关联查询、聚合、存储过程和用户定义的函数),你唯一要做的就是把数据导入到ColumnStore里,就没你事了。这对一家没有Hadoop工程师的公司来说,MariaDB ColumnStore会是一个更好的替代产品。

                                                        -----from 贺春旸


Part3:环境简介

192.168.1.248 HE1 um1

192.168.1.249 HE2 um2

192.168.1.250 HE3 pm1

192.168.1.251 HE4 pm2

Column Store架构概述

Part1:写在最前

MariaDB ColumnStore是一种专为分布式大规模并行处理(MPP)设计的列式存储引擎。它由三个组件组成,协同工作。

wKioL1hgj5KQv_J2AAEH5C9ZRyc677.jpg




在官方给出的架构图中,我们可以看到分为三个组件构成:UM、PM、数据存储层。


用户模块(UM):

用户模块管理和控制终端用户查询的操作,它维护每个查询的状态,向一个或多个性能模块发出请求以代为执行SQL查询工作,最后,用户模块汇集来自各个参与的性能模块的所有查询结果,以形成返回给用户的完整的查询结果集。


性能模块(PM):

性能模块负责存储,检索和管理数据,处理对查询操作的块请求,并将其传递回用户模块以完成查询请求。性能模块将获取的数据缓存在其内存中计算。MPP是通过允许用户配置尽可能多的性能模块,以实现更高的处理能力。


存储:

MariaDB ColumnStore对于存储系统极为灵活。当在内部运行时,它可以使用本地存储或共享存储(例如SAN)来存储数据。在Amazon EC2环境中,它可以使用临时或弹性块存储(EBS)卷。当无共享部署需要数据冗余时,它被构建为与GlusterFS和Apache Hadoop分布式文件系统(HDFS)集成。


一句话总结:用户模块(UM)将客户端发出的SQL请求进行分配,分配到后端性能模块(PM),PM进行数据查询分析,将处理的结果返回给UM,UM再把PM分析的结果进行聚合,最后返回给客户端最终的查询结果。


Column Store性能对比

Percona专业MySQL服务提供商性能测试InfiniDB比其他OLAP优势明显。

wKiom1hh2rPhlcRCAACwZUif19Q578.jpg

Column Store安装

Part1:打通互信

1
2
3
4
5
6
7
8
9
10
11
12
13
14
[root@HE1 ~] # ssh-keygen
[root@HE1 ~] # ssh-copy-id '-p 22 root@192.168.1.248'
[root@HE1 ~] # ssh-copy-id '-p 22 root@192.168.1.249'
[root@HE1 ~] # ssh-copy-id '-p 22 root@192.168.1.250'
[root@HE1 ~] # ssh-copy-id '-p 22 root@192.168.1.251'
[root@HE1 ~] # ssh HE1
[root@HE1 ~] # ssh HE2
[root@HE1 ~] # ssh HE3
[root@HE1 ~] # ssh HE4
[root@HE1 ~] # cat /etc/hosts
192.168.1.248   HE1
192.168.1.249   HE2
192.168.1.250   HE3
192.168.1.251   HE4

在HE1,HE2,HE3,HE4每台机器上执行上述命令,打通ssh互信。


Part2:关闭防火墙

[root@HE1 ~]# /etc/init.d/iptables status

iptables: Firewall is not running.

[root@HE1 ~]# chkconfig iptables off

[root@HE1 ~]# chkconfig --list | grep iptables

iptables       0:off1:off2:off3:off4:off5:off6:off


Part3:关闭文件系统访问时间和修改磁盘调度策略

1
2
3
4
5
6
7
8
9
10
11
12
13
[root@HE1 ~] # cat /etc/fstab 
 
#
# /etc/fstab
# Created by anaconda on Sat Mar  5 09:35:40 2016
#
# Accessible filesystems, by reference, are maintained under '/dev/disk'
# See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for more info
#
UUID=397d50ba-22b0-4d50-9e29-89e3b92d2d07 /                       ext4    defaults,noatime,barrier=0        1 1
 
 
[root@HE1 ~] # echo "deadline" > /sys/block/sda/queue/scheduler


Part4:关闭numa

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
[root@HE1 ~] # cat /etc/grub.conf
# grub.conf generated by anaconda
#
# Note that you do not have to rerun grub after making changes to this file
# NOTICE:  You have a /boot partition.  This means that
#          all kernel and initrd paths are relative to /boot/, eg.
#          root (hd0,0)
#          kernel /vmlinuz-version ro root=/dev/sda2
#          initrd /initrd-[generic-]version.img
#boot=/dev/sda
default=1
timeout=5
splashimage=(hd0,0) /grub/splash .xpm.gz
hiddenmenu
title CentOS (2.6.32-573.18.1.el6.x86_64.debug)
root (hd0,0)
kernel  /vmlinuz-2 .6.32-573.18.1.el6.x86_64.debug ro root=UUID=397d50ba-22b0-4d50-9e29-89e3b92d2d07 rd_NO_LUKS rd_NO_LVM LANG=en_US.UTF-8 rd_NO_MD SYSFONT=latarcyrheb-sun16 crashkernel=auto  KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM rhgb quiet numa=off
initrd  /initramfs-2 .6.32-573.18.1.el6.x86_64.debug.img
title CentOS (2.6.32-431.el6.x86_64)
root (hd0,0)
kernel  /vmlinuz-2 .6.32-431.el6.x86_64 ro root=UUID=397d50ba-22b0-4d50-9e29-89e3b92d2d07 rd_NO_LUKS rd_NO_LVM LANG=en_US.UTF-8 rd_NO_MD SYSFONT=latarcyrheb-sun16 crashkernel=auto  KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM rhgb quiet numa=off
initrd  /initramfs-2 .6.32-431.el6.x86_64.img


Part5:安装jemalloc内存管理

[root@HE1 ~]# yum install jemalloc-*

[root@HE1 ~]# reboot

在HE1,HE2,HE3,HE4每台机器上执行上述命令


Part6:安装boost软件包

[root@HE1 ~]# yum -y install boost*

[root@HE1 ~]# yum -y groupinstall "Development Tools"

[root@HE1 ~]# yum -y install cmake

[root@HE1 ~]# tar xvf boost_1_55_0.tar.gz

[root@HE1 ~]# cd boost_1_55_0

[root@HE1 boost_1_55_0]#  ./bootstrap.sh   --with-libraries=atomic,date_time,exception,filesystem,iostreams,locale,program_options,regex,signals,system,test,thread,timer,log   --prefix=/usr

[root@HE1 boost_1_55_0]# ./b2 install


Part6:安装perl依赖包

[root@HE1 ~]#  yum -y install expect perl perl-DBI openssl zlib   perl-DBD-MySQL


Part7:安装Mariadb ColumStore

[root@HE1 ~]# tar xvf mariadb-columnstore-1.0.6-1-centos6.x86_64.bin.tar.gz -C /usr/local


Part8:配置Mariadb ColumStore

[root@HE1 ~]# /usr/local/mariadb/columnstore/bin/postConfigure

wKiom1hhrObzF4fqAAI-YJ4Ti2Q962.jpg

wKioL1hhrOejBnoEAADPRk_erpg332.jpg

wKiom1hhrOfSG0zeAACk33iEwIw378.jpg

wKioL1hhrOeiqcqnAAESHqAPqOk714.jpg

wKioL1hhrOizhEFVAAEbpNFe9m0603.jpg

wKiom1hhrOnRAiQoAAFsN_f2Uv8393.jpg

wKioL1hhrOqDYTskAADbdvWGe3E608.jpg

wKiom1hhrOqTY85yAAIMbBop1SQ664.jpg

wKioL1hhrOuRjMxRAAHEmlacZ1c694.jpg

wKiom1hhrOzSG-dMAAIZz3xdJAk228.jpg

至此,MariaDB ColumnStore安装并配置完成


Column Store单点故障测试

Part1:关闭HE2


当前HE2为primary um

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
mcsadmin> getSystemStatus
getsystemstatus   Mon Dec 26 15:56:47 2016
System columnstore-1
System and Module statuses
Component     Status                       Last Status Change
------------  --------------------------   ------------------------
System        BUSY_INIT                    Mon Dec 26 15:56:38 2016
Module um1    AUTO_DISABLED /DEGRADED        Mon Dec 26 15:56:40 2016
Module um2    ACTIVE                       Mon Dec 26 15:54:21 2016
Module pm1    ACTIVE                       Mon Dec 26 02:03:27 2016
Module pm2    ACTIVE                       Mon Dec 26 02:03:41 2016
Active Parent OAM Performance Module is  'pm1'
Primary Front-End MariaDB Columnstore Module is  'um2'
MariaDB Columnstore Replication Feature is enabled
[root@HE2 ~] # reboot

在当前primary um重启后,可以看到primary um已经自动切换至um1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
mcsadmin> getSystemStatus
getsystemstatus   Mon Dec 26 15:58:19 2016
System columnstore-1
System and Module statuses
Component     Status                       Last Status Change
------------  --------------------------   ------------------------
System        BUSY_INIT                    Mon Dec 26 15:58:10 2016
Module um1    ACTIVE                       Mon Dec 26 15:57:17 2016
Module um2    AUTO_DISABLED /DEGRADED        Mon Dec 26 15:58:11 2016
Module pm1    ACTIVE                       Mon Dec 26 02:03:27 2016
Module pm2    ACTIVE                       Mon Dec 26 02:03:41 2016
Active Parent OAM Performance Module is  'pm1'
Primary Front-End MariaDB Columnstore Module is  'um1'
MariaDB Columnstore Replication Feature is enabled


Part2:检查状态

在原primary um (HE2)中进入数据库查看,现在已经是um1的从库

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
[root@HE2 ~] # mcsmysql 
Welcome to the MariaDB monitor.  Commands end with ; or \g.
Your MariaDB connection  id  is 10
Server version: 10.1.19-MariaDB Columnstore 1.0.6-1
Copyright (c) 2000, 2016, Oracle, MariaDB Corporation Ab and others.
Type  'help;'  or  '\h'  for  help. Type  '\c'  to  clear  the current input statement.
MariaDB [(none)]> show slave status\G
*************************** 1. row ***************************
                Slave_IO_State: Waiting  for  master to send event
                   Master_Host: 192.168.1.248
                   Master_User: idbrep
                   Master_Port: 3306
                 Connect_Retry: 60
               Master_Log_File: mysql-bin.000013
           Read_Master_Log_Pos: 1879
                Relay_Log_File: relay-bin.000002
                 Relay_Log_Pos: 537
         Relay_Master_Log_File: mysql-bin.000013
              Slave_IO_Running: Yes
             Slave_SQL_Running: Yes
               Replicate_Do_DB: 
           Replicate_Ignore_DB: 
            Replicate_Do_Table: 
        Replicate_Ignore_Table: 
       Replicate_Wild_Do_Table: 
   Replicate_Wild_Ignore_Table: 
                    Last_Errno: 0
                    Last_Error: 
                  Skip_Counter: 0
           Exec_Master_Log_Pos: 1879
               Relay_Log_Space: 829
               Until_Condition: None
                Until_Log_File: 
                 Until_Log_Pos: 0
            Master_SSL_Allowed: No
            Master_SSL_CA_File: 
            Master_SSL_CA_Path: 
               Master_SSL_Cert: 
             Master_SSL_Cipher: 
                Master_SSL_Key: 
         Seconds_Behind_Master: 0
Master_SSL_Verify_Server_Cert: No
                 Last_IO_Errno: 0
                 Last_IO_Error: 
                Last_SQL_Errno: 0
                Last_SQL_Error: 
   Replicate_Ignore_Server_Ids: 
              Master_Server_Id: 1
                Master_SSL_Crl: 
            Master_SSL_Crlpath: 
                    Using_Gtid: No
                   Gtid_IO_Pos: 
       Replicate_Do_Domain_Ids: 
   Replicate_Ignore_Domain_Ids: 
                 Parallel_Mode: conservative
1 row  in  set  (0.00 sec)
MariaDB [(none)]>


Column Store测试

Part1:主键和索引

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
MariaDB [helei]> create table helei_innodb(
     ->  id  int(10) unsigned NOT NULL AUTO_INCREMENT,
     -> c1 int(10) NOT NULL DEFAULT  '0' ,
     -> c2 int(10) unsigned DEFAULT NULL,
     -> c5 int(10) unsigned NOT NULL DEFAULT  '0' ,
     -> c3 timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
     -> c4 varchar(200) NOT NULL DEFAULT  '' ,
     -> PRIMARY KEY( id ),
     -> KEY idx_c1(c1),
     -> KEY idx_c2(c2)
     -> )ENGINE=InnoDB ;
Query OK, 0 rows affected (0.03 sec)
MariaDB [helei]> create table helei_cs(
     ->  id  int(10) unsigned NOT NULL AUTO_INCREMENT,
     -> c1 int(10) NOT NULL DEFAULT  '0' ,
     -> c2 int(10) unsigned DEFAULT NULL,
     -> c5 int(10) unsigned NOT NULL DEFAULT  '0' ,
     -> c3 timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
     -> c4 varchar(200) NOT NULL DEFAULT  '' ,
     -> PRIMARY KEY( id ),
     -> KEY idx_c1(c1),
     -> KEY idx_c2(c2)
     -> )ENGINE=Columnstore;
ERROR 1069 (42000): Too many keys specified; max 0 keys allowed

这里可以看出,columnstore存储引擎不支持主键也不需要索引

1
2
3
4
5
6
7
8
9
10
11
MariaDB [helei]> create table helei_cs(
     ->  id  int(10) unsigned NOT NULL ,
     -> c1 varchar(200) NOT NULL DEFAULT  ''
     -> )ENGINE=Columnstore;
Query OK, 0 rows affected (0.34 sec)
MariaDB [helei]> insert into helei_cs values(1, '1' );
Query OK, 1 row affected (0.60 sec)
MariaDB [helei]> insert into helei_cs values(2, '2' );
Query OK, 1 row affected (0.08 sec)
MariaDB [helei]> insert into helei_cs values(3, '3' );
Query OK, 1 row affected (0.17 sec)

这里可以看出columnstore的插入速度较慢


Warning:

columnstore不支持主键、索引、timestamp、collate用法、char\varchar类型的sum/average用法。



Part2:效率测试

1G内存虚拟机MariaDB ColumnStore 2.82s,线上生产库8G的innodb_buffer_pool_size该条慢查询耗时17.894s。

wKiom1hhzZPhbgsfAAHGfuXLaEI623.jpg

wKiom1hhzZPg9wC1AAA_XFox6c4203.jpg




BUG发现

如果pm2的机器挂掉了,按照原本的想法,应该pm1可以继续工作,但无法进行查询,会报错:

ERROR 1815 (HY000): Internal error: st: 10000 TupleBPS::sendPrimitiveMessages() caught an exception: IDB-2034: At least one DBRoot required for that query is offline. 


这应该是一个BUG,因为pm是负责拉取数据到内存中进行计算的,数据本文中的实验应该都存放在um机器下。我们来查一下现在表中的数据:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
MariaDB [erp_test]> show tables;
+--------------------+
| Tables_in_erp_test |
+--------------------+
| erp_bjlikp         |
| erp_bjlips         |
| erp_likp           |
| erp_lips           |
| erp_mara           |
+--------------------+
5 rows  in  set  (0.00 sec)
MariaDB [erp_test]>  select  count(*) from erp_bjlikp;
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row  in  set  (1.15 sec)
MariaDB [erp_test]>  select  count(*) from erp_bjlips;
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row  in  set  (1.15 sec)
MariaDB [erp_test]>  select  count(*) from erp_lips;
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row  in  set  (1.14 sec)
MariaDB [erp_test]>  select  count(*) from erp_mara;
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row  in  set  (1.15 sec)

会发现所有的表行数都变为0了

1
2
3
4
5
6
7
8
ProcessMonitor      pm2       AUTO_OFFLINE      Tue Dec 27 22:23:50 2016
ProcessManager      pm2       AUTO_OFFLINE      Tue Dec 27 22:23:50 2016
DBRMControllerNode  pm2       AUTO_OFFLINE      Tue Dec 27 22:23:50 2016
ServerMonitor       pm2       AUTO_OFFLINE      Tue Dec 27 22:23:50 2016
DBRMWorkerNode      pm2       AUTO_OFFLINE      Tue Dec 27 22:23:50 2016
DecomSvr            pm2       AUTO_OFFLINE      Tue Dec 27 22:23:50 2016
PrimProc            pm2       AUTO_OFFLINE      Tue Dec 27 22:23:50 2016
WriteEngineServer   pm2       AUTO_OFFLINE      Tue Dec 27 22:23:50 2016
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
MariaDB [erp_test]>  select  count(*) from erp_lips;
+----------+
| count(*) |
+----------+
|  3147299 |
+----------+
1 row  in  set  (0.37 sec)
MariaDB [erp_test]>  select  count(*) from erp_mara;
+----------+
| count(*) |
+----------+
|     4361 |
+----------+
1 row  in  set  (0.08 sec)
MariaDB [erp_test]>  select  count(*) from erp_bjlips;
+----------+
| count(*) |
+----------+
|  2762244 |
+----------+
1 row  in  set  (0.13 sec)
MariaDB [erp_test]>  select  count(*) from erp_bjlikp;
+----------+
| count(*) |
+----------+
|    19032 |
+----------+
1 row  in  set  (0.09 sec)
MariaDB [erp_test]>  select  count(*) from erp_likp;
+----------+
| count(*) |
+----------+
|   169002 |
+----------+
1 row  in  set  (0.08 sec)

pm2机器启动后,发现又恢复正常

这应该是软件的一个bug,应该会在1.0.7GA版本修复。

感谢贺春旸老师指点,本人在测试环境中得以验证该BUG



——总结——

大家可以用生产的复杂SQL跑一跑,来体验一下。由于笔者的水平有限,编写时间也很仓促,文中难免会出现一些错误或者不准确的地方,不妥之处恳请读者批评指正。





 本文转自 dbapower 51CTO博客,原文链接:http://blog.51cto.com/suifu/1886417
,如需转载请自行联系原作者

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
关系型数据库 开发者
新闻 | MariaDB Columnstore 1.0.6 GA发布
新闻 | MariaDB Columnstore 1.0.6 GA发布
|
关系型数据库 开发者
新闻 | MariaDB Columnstore 1.0.6 GA发布
新闻 | MariaDB Columnstore 1.0.6 GA发布
|
6月前
|
NoSQL 关系型数据库 MySQL
阿里云RDS关系型数据库大全_MySQL版、PolarDB、PostgreSQL、SQL Server和MariaDB等
阿里云RDS关系型数据库如MySQL版、PolarDB、PostgreSQL、SQL Server和MariaDB等,NoSQL数据库如Redis、Tair、Lindorm和MongoDB
254 0
|
6月前
|
NoSQL 关系型数据库 MySQL
阿里云关系型数据库详细介绍MySQL/MariaDB/SQL Server/PolarDB/PostgreSQL等
阿里云关系型数据库详细介绍MySQL/MariaDB/SQL Server/PolarDB/PostgreSQL等,阿里云RDS关系型数据库如MySQL版、PolarDB、PostgreSQL、SQL Server和MariaDB等
114 0
|
6月前
|
NoSQL Cloud Native 关系型数据库
阿里云RDS数据库_MySQL_SQL Server_MariaDB_PolarDB_PostgreSQL
阿里云RDS关系型数据库大全:MySQL版、PolarDB、PostgreSQL、SQL Server和MariaDB等
110 0
|
8月前
|
关系型数据库 MySQL API
MariaDB数据库中如何允许远程链接mysql并开放3306端口
MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可。开发这个分支的原因之一是:甲骨文公司收购了MySQL后,有将MySQL闭源的潜在风险,因此社区采用分支的方式来避开这个风险。
547 0
|
8月前
|
存储 关系型数据库 MySQL
mysql--Centos安装MariaDB(mysql)
mysql--Centos安装MariaDB(mysql)
1327 0