《Greenplum企业应用实战》一1.4 Greenplum特性及应用场景

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介:

本节书摘来自华章出版社《Greenplum企业应用实战》一书中的第1章,第1.4节,作者 何勇 陈晓峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.4 Greenplum特性及应用场景

1.4.1 Greenplum特性

(1)支持海量数据存储和处理
当今是个数据迅速增长的时代,数据量从过去的MB到GB,再到TB增长到现在的PB级规模,传统的OLTP数据库在TB级别以上的数据管理中已经捉襟见肘。Greenplum使用MPP架构,同时使用多台机器并行计算,极大地提高了对海量数据的处理能力。采取MPP架构的数据库系统才能对海量数据进行管理。
(2)高性价比
Greenplum数据库可以搭建在业界各种开放式硬件平台上,在硬件选型上有很强的自由性。
相比其他封闭式数据仓库专用系统及Hadoop分析平台,Greenplum在每TB数据量上的投资是前者的1/5甚至更低。
Greenplum licence相比Oracle RAC、Teradata等,价格低廉。
Greenplum易于维护,可以节省大量的维护成本。
(3)支持Just In Time BI
Greenplum通过准实时、实时的数据加载方式,实现数据仓库的实时更新,进而实现动态数据仓库(ADW)。基于动态数据仓库,业务用户能对当前业务数据进行BI实时分析(Just In Time BI),能够让企业敏锐感知市场的变化,加快决策支持反应速度。
(4)系统易用性
Greenplum是基于PostgreSQL开发的,语法与PostgreSQL几乎一样,PostgreSQL的工具基本上都能够在Greenplum中使用,比如pgadmin等。Greenplum使用通用的PostgreSQL连接包即可与数据库连接,支持绝大部分开发语言。Greenplum的易用性具体表现如下。
支持主流的SQL语法,使用起来十分方便,学习成本低。
扩展性好,支持多语言的自定义函数和自定义类型等。
提供了大量的维护工具,使用维护起来很方便。
在Internet上有着丰富的PostgreSQL资源供用户参考。
(5)支持线性扩展
Greenplum采用MPP并行处理架构。在MPP架构中增加节点就可以线性提高系统的存储容量和处理能力。Greenplum在扩展节点时操作简单,在很短时间内就能完成数据的重新分布。Greenplum线性扩展支持为数据分析系统将来的拓展提供了技术上的保障,使用户可根据实施需要进行容量和性能的扩展。
(6)较好的并发支持及高可用性支持
Greenplum是高可用的系统,在已有案例中最多使用了96台机器的集群MPP环境。除了硬件级的Raid技术外,Greenplum还提供数据库层Mirror机制保护,也就是将每个节点的数据在另外的节点中同步镜像,单个节点的错误不影响整个系统的使用。对于主节点,Greenplum提供Master/Stand by机制进行主节点容错,当主节点发生错误时,可以切换到Stand by节点继续服务。
(7)支持MapReduce
MapReduce已经被谷歌和雅虎等互联网领先企业证明是一种大规模数据分析技术,Greenplum将这种能力提供给企业。
(8)数据库内部压缩
面对海量数据,压缩可以节省很大的空间,而且在对大数据的分析时,压缩也可能减少对磁盘的访问。Greenplum支持对数据库表进行压缩处理,从而提升数据库的性能。

1.4.2 Greenplum应用场景

Greenplum数据引擎是为新一代数据仓库和大规模分析处理而建立的软件解决方案,其最大的特点是不需要高端的硬件支持仍然可以支撑大规模的高性能数据仓库和商业智能查询。在数据仓库、商业智能的应用上,尤其在海量数据的处理方面Greenplum表现出极其优异的性能。
传统数据库侧重交易处理,关注的是多用户的同时的双向操作,在保障即时性的要求下,系统通过内存来处理数据的分配、读写等操作,存在IO瓶颈。而分析型数据库是以实时多维分析技术作为基础,对数据进行多角度的模拟和归纳,从而得出数据中所包含的信息和知识。Greenplum虽然是关系型数据库产品,但是它具有查询速度快、数据装载速度快、批量DML处理快的主要特点,而且性能可以随着硬件的添加呈线性增加,拥有非常良好的可扩展性。因此,Greenplum主要适用于面向分析的应用,比如构建企业级ODS/EDW、数据集市等。
在国内,笔者所在公司—阿里巴巴(中国)网络技术有限公司,从2008年开始引入Greenplum,将原有的Oracle RAC迁移到Greenplum上,作为数据仓库的计算中心,其中一个应用就是通过分析用户的网络点击日志进行产品的关联分析。支付宝在2008年也引入了Greenplum数据库作为数据中心。国内还有很多银行也引入了Greenplum作为基础的数据平台,如北京银行、深发展银行、中信银行信用卡中心等。在TB级的数据仓库的OLAP应用中Greenplum在易用性和性能方面有着很大的优势。

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
1月前
|
SQL 弹性计算 关系型数据库
TiDB的主要特点:深入了解其技术特性
【2月更文挑战第25天】TiDB作为一款高性能、分布式的关系型数据库,其独特的技术特性使其在数据处理领域脱颖而出。本文将深入探讨TiDB的主要特点,包括其分布式架构、MySQL协议兼容性、弹性伸缩能力、强一致性保证以及丰富的SQL功能等,帮助读者更全面地了解这一优秀的数据库产品
|
11月前
|
存储 传感器 分布式计算
「时序数据库」时序数据库和MongoDB第二部分-模式设计最佳实践
「时序数据库」时序数据库和MongoDB第二部分-模式设计最佳实践
|
SQL 存储 NoSQL
Greenplum应用最佳实践
Greenplum分布式分析数据库 通用操作的最佳实践。持续更新
1264 0
Greenplum应用最佳实践
|
关系型数据库 PostgreSQL 数据库
|
存储 关系型数据库 大数据
如何支撑HTAP场景——HybridDB for MySQL系统架构和技术演进
10月12日的云栖大会·HTAP技术专场中,阿里云高级专家王骞探讨如何如何支撑HTAP场景,并重点分享了如何利用RDS技术实现HTAP业务,以及HybridDB for MySQL的系统架构和技术演进。
3237 0