NoSQL数据库概览及其与SQL语法的比较

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介: 【文章摘要】HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,同时也是知名的NoSQL数据库之一。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用的难题。

【文章摘要

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,同时也是知名的NoSQL数据库之一。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用的难题。

本文对NoSQL数据库的定义、分类、特征、当前比较流行的NoSQL数据库系统等进行了简单的介绍,并对NoSQL和SQL语法进行了简单的比较,为大家对NoSQL数据库的学习提供了有益的参考。

 

一、NoSQL的出现

关系型数据库系统多年来在解决数据存储、服务和处理问题方面取得了巨大的成功。一些大型的公司使用关系型数据库建立了自己的系统,如联机事务处理系统和后端分析应用系统。联机事务处理(OLTP)系统用来实时记录交易信息。对这类系统的期望是能够快速返回响应信息(一般在毫秒级)。联机分析处理(OLAP)系统用来分析查询所储存的数据。OLAP属于商业智能的范畴,数据需要研究、处理和分析,以便收集信息,进一步驱动商业决策。

关系型数据库的内部设计由关系算法决定,这些系统需要预先定义一个模式(schema)和数据要遵守的类型。SQL是与这些系统交互的标准方式。但在对象-关系不匹配问题出现的场合,SQL就不是表达访问模式的最好方式了。例如目前炙手可热的大数据领域,关系型数据库不能很好地工作。

有关大数据常见定义包括:第一,大数据意味着数据足够大,为了从这些数据中获得一些真知灼见,你不得不研究它;第二,大数据就是不再适用于单台机器的数据。这些观点并不完整,我们需要用一种根本上不同的方式来考虑数据,从如何驱动商业价值的角度来考虑数据,这种数据就是大数据。

在大数据领域中,系统需要能够适应不同种类的数据格式和数据源,不需要预先严格定义模式,并且能够处理大规模数据。这样,NoSQL就出现了。

 

二、NoSQL的定义

NoSQL(NoSQL= Not Only SQL ),意即“不仅仅是SQL”,是一项全新的数据库革命性运动。NoSQL的拥护者们提倡运用非关系型的数据存储。大多数数据库技术不能保证支持ACID(原子性、一致性、隔离性和持久性),而且大部分技术都是开源项目,这些技术作为整体被称为NoSQL。

 

三、NoSQL的分类

一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。它们的数据模型、优缺点、典型应用场景如表1所示。

表1 四大NoSQL数据库分析

分类

数据模型

优点

缺点

典型应用场景

键值(Key-Value)存储数据库

Key指向Value的键值对,通常用hash表来实现

查找速度快

数据无结构化(通常只被当作字符串或者二进制数据)

内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等

列存储数据库

以列簇式存储,将同一列数据存在一起

查找速度快,可扩展性强,更容易进行分布式扩展

功能相对局限

分布式的文件系统

文档型数据库

Key-Value对应的键值对,Value为结构化数据

数据结构要求不严格,表结构可变(不需要像关系型数据库一样需预先定义表结构)

查询性能不高,而且缺乏统一的查询语法

Web应用

图形(Graph)数据库

图结构

利用图结构相关算法(如最短路径寻址,N度关系查找等)

很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案

社交网络,推荐系统等

 

 

四、NoSQL的特征

NoSQL数据库并没有一个统一的架构,但是它们都普遍存在表2所示的一些共同特征。

表2 NoSQL的特征

特征

描述

不需要预定义模式

不需事先定义数据模式,预定义表结构等。数据中每条记录都可能有不同的属性和格式

无共享架构

NoSQL往往将数据划分后存储在各个本地服务器上,从而提高了系统的性能

弹性可扩展

可以在系统运行的时候,动态增加或者删除结点。不需要停机维护,数据可以自动迁移

分区

NoSQL数据库将数据进行分区,将记录分散在多个节点上面,并且通常分区的同时还要做复制

异步复制

NoSQL中的复制,往往是基于日志的异步复制。这样,数据就可以尽快地写入一个节点,而不会出现网络传输迟延

BASE

相对于ACID特性,NoSQL数据库保证的是BASE特性(BASE是最终一致性和软事务)

 

 

五、常见的NoSQL数据库

比较适合采用NoSQL数据库的场合是:(1)数据模型比较简单;(2)需要灵活性更强的IT系统;(3)对数据库性能要求较高;(4)不需要高度的数据一致性;(5)对于给定key,比较容易映射复杂值的环境。

常见的NoSQL数据库如表3所示。

表3常见的NoSQL数据库

分类

实例

 

 

 

 

 

键值(Key-Value)存储数据库

*  Riak:一个开源、分布式键值数据库,支持数据复制和容错

*  Redis:一个开源的键值存储数据库,支持主从式复制、事务,Pub/Sub、Lua脚本,还支持给Key添加时限

*  Dynamo:一个键值分布式存储数据库,直接由亚马逊Dynamo数据库实现

*  Oracle NoSQL Database:来自Oracle的键值NoSQL数据库,支持事务ACID和JSON

*  Oracle NoSQL Database:具备数据备份和分布式键值存储系统

*  Voldemort:具备数据备份和分布式键值存储系统

*  Aerospike:一个键值存储数据库,支持混合内存架构,通过强一致性和可调一致性保证数据的完整性

 

 

 

 

 

列存储数据库

*  Cassandra:支持跨数据中心的数据复制,提供列索引

*  HBase:一个开源、分布式、面向列存储的模型

*  Amazon SimpleDB:一个非关系型数据存储

*  Apache Accumulo:有序的、分布式键值数据存储,基于Google的BigTable设计

*  Hypertable:一个开源、可扩展的数据库,模仿Bigtable,支持分片

*  Azure Tables:为要求大量非结构化数据存储的应用提供NoSQL性能

 

 

 

文档型数据库

*  MongoDB:开源、面向文档

*  CounchDB:一个使用JSON的文档数据库,使用Javascript做MapReduce查询,也是一个使用HTTP的API

*  Couchbase:基于JSON模型

*  RavenDB:一个基于.net语言的面向文档数据库

*  MarkLogic:用来存储基于XML和以文档为中心的信息,支持灵活的模式

 

图形(Graph)数据库

*  Neo4j:一个图数据库,支持ACID事务

*  InfiniteGraph:用来维持和遍历对象间的关系,支持分布式数据存储

*  AllegroGraph:结合使用了内存和磁盘,提供了高可扩展性,支持SPARQ、RDFS++和Prolog推理

 

六、NoSQL和SQL语法的简单比较

前面介绍了NoSQL的基本情况,下面以HBase和ORACLE为例,对NoSQL和SQL的语法进行简单的比较。HBase数据库被认为是安全特性最完善的NoSQL数据库产品之一,它被证实是一个强大的工具,尤其是在已经使用Hadoop的场合。如今,它已经是Apache顶级项目,有着众多的开发人员和兴旺的用户社区。

1.创建表

如果要创建一个表“mytable”,其中包含了一个“info”字段,那么:

(1)ORACLE中的语法为:

create table mytable

(

    info  varchar(30) not null

);

(2)HBase中的语法为:

create 'mytable', 'cf'

该命令创建了一个有一个列族(“cf”)的表“mytable”。

 

2.写数据

如果要向表中写入数据“hello hbase”,那么:

(1)ORACLE中的语法为:

insert into mytable(info) values('hello hbase');

(2)HBase中的语法为:

put 'mytable', 'first', 'cf:info', 'hello hbase'

该命令在“mytable”表的“first”行中的“cf:info”列对应的数据单元中插入“hello hbase”。

 

3.读(查)数据

如果要从表中读出单条数据,那么:

(1)ORACLE中的语法为:

select * from mytable where info = 'hello hbase';

(2)HBase中的语法为:

get 'mytable', 'first'

该命令输出了该行的数据单元。

 

如果要从表中读出所有数据,那么:

(1)ORACLE中的语法为:

select * from mytable;

(2)HBase中的语法为:

scan 'mytable'

该命令输出了所有数据。

 

4.删数据

如果要从表中删除数据,那么:

(1)ORACLE中的语法为:

delete from mytable where info = 'hello hbase';

(2)HBase中的语法为:

put 'mytable', 'first', 'cf:info', 'hello hbase1'

该命令用最新的值覆盖了旧的值,就相当于将原数据删除了。

 

5.修改数据

如果要在表中修改数据,那么:

(1)ORACLE中的语法为:

update mytable set info = 'hello hbase1' where info = 'hellohbase';

(2)HBase中的语法为:

put 'mytable', 'first', 'cf:info', 'hello hbase1'

该命令用最新的值覆盖了旧的值,就相当于修改了原数据。

 

6.删表

如果要删除表,那么:

(1)ORACLE中的语法为:

drop table mytable;

(2)HBase中的语法为:

disable 'mytable'

drop 'mytable'

该命令先将表“disable”掉,然后再“drop”掉。

 

我们可以看到,HBase的语法比较的简单,因此完全可以将上述所有命令放到一个shell脚本中,让命令批量执行。下面,我们来具体操作一下:

第一步,编写名为“command.sh”的脚本,其内容如下:

exec /root/zhouzx/hbase-1.0.1/bin/hbase shell <<EOF

create 'mytable', 'cf'

put 'mytable', 'first', 'cf:info', 'hello hbase'

get 'mytable', 'first'

scan 'mytable'

put 'mytable', 'first', 'cf:info', 'hello hbase1'

disable 'mytable'

drop 'mytable'

EOF

 

第二步,将该脚本上传到Linux机器的安装HBase的用户下,依次执行“dos2unix command.sh”和“chmod 777command.sh”命令来转换文件格式和对文件赋权限。

 

第三步,执行“./command.sh”命令,在Linux界面上,我们可以看到如下输出信息:

HBase Shell; enter 'help<RETURN>' for list of supportedcommands.

Type "exit<RETURN>" to leave the HBase Shell

Version 1.0.1, r66a93c09df3b12ff7b86c39bc8475c60e15af82d, Fri Apr17 22:14:06 PDT 2015

 

create 'mytable', 'cf'

0 row(s) in 0.6660 seconds

 

Hbase::Table - mytable

put 'mytable', 'first', 'cf:info', 'hello hbase'

0 row(s) in 0.1140 seconds

 

get 'mytable', 'first'

COLUMN                           CELL                                                                                          

 cf:info                         timestamp=1435807200326, value=hello hbase                                                    

1 row(s) in 0.0440 seconds

 

scan 'mytable'

ROW                  COLUMN+CELL                                                                                    

 first                   column=cf:info,timestamp=1435807200326, value=hello hbase                                    

1 row(s) in 0.0210 seconds

 

put 'mytable', 'first', 'cf:info', 'hello hbase1'

0 row(s) in 0.0040 seconds

 

disable 'mytable'

0 row(s) in 1.1930 seconds

 

drop 'mytable'

0 row(s) in 0.1940 seconds

 

整个脚本执行过程不过几秒钟,但我们之前提到的所有HBase命令都包括其中了,由此可见批处理的威力。大家一定要好好体会一下。

 

七、总结

本文对NoSQL进行了全面的介绍,并比较了它与SQL语法之间的不同。尽管大多数NoSQL数据存储系统都已被部署到实际应用中,但仍存在以下挑战性问题需要解决:

第一,已有key-value数据库产品大多是面向特定应用自治构建的,缺乏通用性。

第二,已有产品支持的功能有限(不支持事务特性),导致其应用具有一定的局限性。

第三,已有一些研究成果和改进的NoSQL数据存储系统,但它们都是针对不同应用需求而提出的相应解决方案,很少从全局考虑系统的通用性,也没有形成系列化的研究成果。

第四,缺乏类似关系数据库所具有的强有力的理论(如armstrong公理系统)、技术(如成熟的基于启发式的优化策略、两段封锁协议等)、标准规范(如SQL语言)的支持。

第五,很多NoSQL数据库没有提供内建的安全机制。

 

随着云计算、移动互联网等技术的发展,大数据广泛存在,同时也出现了许多云环境下的新型应用,如社交网络、移动服务、协作编辑等。这些新型应用对海量数据管理或称云数据管理系统也提出了新的需求,NoSQL数据库在这些方面有大展身手的机会。我们有理由相信,NoSQL数据库的明天会更加的美好!

 

 

-------------------------

本人微信公众号:zhouzxi,请扫描以下二维码: 

 

相关实践学习
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
12天前
|
SQL 人工智能 算法
【SQL server】玩转SQL server数据库:第二章 关系数据库
【SQL server】玩转SQL server数据库:第二章 关系数据库
51 10
|
12天前
|
SQL 算法 数据库
【SQL server】玩转SQL server数据库:第三章 关系数据库标准语言SQL(二)数据查询
【SQL server】玩转SQL server数据库:第三章 关系数据库标准语言SQL(二)数据查询
75 6
|
1天前
|
SQL Oracle 关系型数据库
sql语句创建数据库
在创建数据库之前,请确保你有足够的权限,并且已经考虑了数据库的安全性和性能需求。此外,不同的DBMS可能有特定的最佳实践和配置要求,因此建议查阅相关DBMS的官方文档以获取更详细和准确的信息。
|
1天前
|
SQL 缓存 数据库
sql 数据库优化
SQL数据库优化是一个复杂且关键的过程,涉及多个层面的技术和策略。以下是一些主要的优化建议: 查询语句优化: 避免全表扫描:在查询时,尽量使用索引来减少全表扫描,提高查询速度。 使用合适的子查询方式:子查询可能降低查询效率,但可以通过优化子查询的结构或使用连接(JOIN)替代子查询来提高性能。 简化查询语句:避免不必要的复杂查询,尽量使SQL语句简单明了。 使用EXISTS替代IN:在查询数据是否存在时,使用EXISTS通常比IN更快。 索引优化: 建立合适的索引:对于经常查询的列,如主键和外键,应创建相应的索引。同时,考虑使用覆盖索引来进一步提高性能。 避免过多的索引:虽然索引可以提高查询
|
4天前
|
NoSQL MongoDB Redis
Python与NoSQL数据库(MongoDB、Redis等)面试问答
【4月更文挑战第16天】本文探讨了Python与NoSQL数据库(如MongoDB、Redis)在面试中的常见问题,包括连接与操作数据库、错误处理、高级特性和缓存策略。重点介绍了使用`pymongo`和`redis`库进行CRUD操作、异常捕获以及数据一致性管理。通过理解这些问题、易错点及避免策略,并结合代码示例,开发者能在面试中展现其技术实力和实践经验。
34 8
Python与NoSQL数据库(MongoDB、Redis等)面试问答
|
8天前
|
SQL 数据库
数据库SQL语言实战(二)
数据库SQL语言实战(二)
|
9天前
|
SQL 关系型数据库 数据库
【后端面经】【数据库与MySQL】SQL优化:如何发现SQL中的问题?
【4月更文挑战第12天】数据库优化涉及硬件升级、操作系统调整、服务器/引擎优化和SQL优化。SQL优化目标是减少磁盘IO和内存/CPU消耗。`EXPLAIN`命令用于检查SQL执行计划,关注`type`、`possible_keys`、`key`、`rows`和`filtered`字段。设计索引时考虑外键、频繁出现在`where`、`order by`和关联查询中的列,以及区分度高的列。大数据表改结构需谨慎,可能需要停机、低峰期变更或新建表。面试中应准备SQL优化案例,如覆盖索引、优化`order by`、`count`和索引提示。优化分页查询时避免大偏移量,可利用上一批的最大ID进行限制。
33 3
|
12天前
|
SQL 监控 数据库
数据库管理与电脑监控软件:SQL代码优化与实践
本文探讨了如何优化数据库管理和使用电脑监控软件以提升效率。通过SQL代码优化,如使用索引和调整查询语句,能有效提高数据库性能。同时,合理设计数据库结构,如数据表划分和规范化,也能增强管理效率。此外,利用Python脚本自动化收集系统性能数据,并实时提交至网站,可实现对电脑监控的实时性和有效性。这些方法能提升信息系统稳定性和可靠性,满足用户需求。
41 0
|
12天前
|
SQL 存储 数据挖掘
数据库数据恢复—RAID5上层Sql Server数据库数据恢复案例
服务器数据恢复环境: 一台安装windows server操作系统的服务器。一组由8块硬盘组建的RAID5,划分LUN供这台服务器使用。 在windows服务器内装有SqlServer数据库。存储空间LUN划分了两个逻辑分区。 服务器故障&初检: 由于未知原因,Sql Server数据库文件丢失,丢失数据涉及到3个库,表的数量有3000左右。数据库文件丢失原因还没有查清楚,也不能确定数据存储位置。 数据库文件丢失后服务器仍处于开机状态,所幸没有大量数据写入。 将raid5中所有磁盘编号后取出,经过硬件工程师检测,没有发现明显的硬件故障。以只读方式将所有磁盘进行扇区级的全盘镜像,镜像完成后将所
数据库数据恢复—RAID5上层Sql Server数据库数据恢复案例
|
SQL .NET 数据库连接