《Greenplum企业应用实战》一导读

简介:

image

前 言

为什么写作本书

阿里巴巴是国内最早使用Greenplum作为数据仓库计算中心的公司。从2009年到2012年Greenplum都是阿里巴巴B2B最重要的数据计算中心,它替换掉了之前的Oracle RAC,有非常多的优点。
Greenplum的性能在数据量为TB级别时表现非常优秀,单机性能相比Hadoop要快好几倍。
Greenplum是基于PostgreSQL的一个完善的数据库,在功能和语法上都要比Hadoop上的SQL引擎Hive好用很多,对于普通用户来说更加容易上手。
Greenplum有着完善的工具,相比Hive,整个体系都比较完善,不需要像Hive一样花太多的时间和精力进行改造,非常适合作为一些大型的数据仓库解决方案。
Greenplum能够方便地与Hadoop进行结合,可直接把数据写在Hadoop上,还可以直接在数据库上写MapReduce任务,并且配置简单。
从2010年毕业加入阿里巴巴B2B的数据仓库起,我就开始接触Greenplum数据库,并有幸维护了一年多的Greenplum数据库,积累了很多数据库的相关知识。Greenplum在国内的应用相对比较少,尤其是网上资料相当匮乏。在使用Greenplum的过程中,阿里巴巴遇到了很多困难,也积累了很多宝贵经验。
由于学习资料的匮乏,我和何勇有了将阿里巴巴使用Greenplum的一些经验技巧汇聚成书的想法,这样既总结和沉淀了自身知识,同时也可以给国内使用Greenplum的同行们提供一点帮助。

目 录 

第1章 Greenplum简介
1.1 Greenplum的起源和发展历程
1.2 OLTP与OLAP
1.3 PostgreSQL与Greenplum的关系
1.4 Greenplum特性及应用场景
1.5 小结
第2章 Greenplum快速入门
2.1 软件安装及数据库初始化
2.2 安装Greenplum的常见问题
2.3 畅游Greenplum
2.4 小结
第3章 Greenplum实战
3.1 历史拉链表
3.2 日志分析
3.3 数据分布
3.4 数据压缩
3.5 索引
3.6 小结
中篇 进 阶 篇
第4章 数据字典详解
4.1 oid无处不在
4.2 数据库集群信息
4.2.1 Gp_configuration和gp_segment_configuration
4.2.2 Gp_id
4.2.3 Gp_configuration_history
4.2.4 pg_filespace_entry
4.2.5 集群配置信息表转化
4.3 常用数据字典
4.3.1 pg_class
4.3.2 pg_attribute
4.3.3 gp_distribution_policy
4.3.4 pg_statistic和pg_stats
4.4 分区表信息
4.4.1 如何实现分区表
4.4.2 pg_partition
4.4.3 pg_partition_rule
4.4.4 pg_partitions视图及其优化
4.5 自定义类型以及类型转换
4.6 主、备节点同步的相关数据字典
4.7 数据字典应用示例
4.7.1 获取表的字段信息
4.7.2 获取表的分布键
4.7.3 获取一个视图的定义
4.7.4 查询comment(备注信息)
4.7.5 获取数据库建表语句
4.7.6 查询表上的视图
4.7.7 查询表的数据文件创建时间
4.7.8 分区表总大小
4.7.9 如何分析数据字典变化
4.7.10 获取数据库锁信息
4.8 Gp_toolkit介绍
4.9 小结

相关文章
|
7月前
|
存储 SQL OLAP
招商信诺人寿基于阿里云数据库 SelectDB 版内核 Apache Doris 统一 OLAP 技术栈实践
招商信诺人寿基于 Apache Doris 实现 OLAP 技术栈统一,赋能 70 + 一线业务场景实时化
招商信诺人寿基于阿里云数据库 SelectDB 版内核 Apache Doris  统一 OLAP 技术栈实践
|
9月前
|
Cloud Native 关系型数据库 分布式数据库
阿里云最新产品手册——阿里云核心产品——云原生关系型数据库PolarDB——一读多写
阿里云最新产品手册——阿里云核心产品——云原生关系型数据库PolarDB——一读多写自制脑图
90 1
|
9月前
|
Cloud Native 关系型数据库 分布式数据库
阿里云最新产品手册——阿里云核心产品——云原生关系型数据库PolarDB——简介
阿里云最新产品手册——阿里云核心产品——云原生关系型数据库PolarDB——简介自制脑图
65 2
|
10月前
|
SQL 分布式计算 运维
面向未来的开源 OLAP 技术架构探讨以及选型实践
本文详细介绍了开源大数据OLAP的演化过程和最佳实践。
8763 0
|
11月前
|
SQL 分布式计算 Cloud Native
带你读《企业级云原生白皮书项目实战》——5.2.4 SQL开发参考
带你读《企业级云原生白皮书项目实战》——5.2.4 SQL开发参考
118 0
|
SQL 存储 NoSQL
Greenplum应用最佳实践
Greenplum分布式分析数据库 通用操作的最佳实践。持续更新
1264 0
Greenplum应用最佳实践
|
NoSQL 算法 固态存储
Cassandra 最佳实践系列(2) - 选型篇
Cassandra最佳实践之选型,选择什么样子的机器
2024 0