一个小型数据库的核心组件

简介:
 
如果想要了解存储,我比较推荐的方式还是从了解数据库开始。从目前来看,数据库发展了这么多年,各种理论相对的比较完善,面对各种应用场景,其核心处理模式也已经非常的成熟了,在新的海量数据的时代,人们只是对扩展性提出了更高的要求,而对数据存储的其他方面却仍然希望能保持之前的水平。

而从目前实际的发展来看,基本上目前发展的核心思路并没有绕开人们在数据库理论领域内所积累的那些关键的特性。因此,如果你希望能够快速的在海量数据的在线处理领域内积累知识,从传统数据库领域入手是绝对不会错的。

下面,就让我们对数据库做个简单的解刨,看看数据库里面有哪些核心的组件吧。


映射(Map):
首先就需要有能够存储数据并提供查询的结构,这个结构,在java里面就是Map。 C里面也是Map.他的核心作用就是,建立一种key与value的映射关系,当给定某个key的时候,他能够返回这个key所对应的value给用户。这是用户在进行查询时的主要数据结构。


预写式日志(write-ahead logging,WAL):
就是个队列,记录了你每一次写的操作。自然而然的,因为你的每次写操作都被记录下来了,所以就算计算机断电了,只要这个日志没有损坏,计算机重启后按照这个log ,重放在断电时的那些写操作,就可以保证你的数据不丢。
这里,一定会有人问:既然我数据都存储在k-v表里了,明显就不会丢失了。为什么还要有这个log呢?这其实就是一个计算机的本质性问题了,别看现代计算机运算速度这么快,他终归也只是个“图灵机”实现,或者更具象化一点,就是一台打字机,一次只能打一个字母,那么可能会有人问了,如果我要用几个字母来表示同一个意思,应该怎么做呢? 在英语中,最简单的方式就是在词组和词组之间增加空格。 比如write ahead logging. 就是三个由字母组成的单词。在计算机里,也有类似的问题,用户的一次写入操作,可能对应计算机内的多步操作,如何能够保证这多次的操作要么全部成功,要么全部失败呢? WAL就是个解决的方法,他利用的是操作系统里的一个原子操作fsync(). 该操作的作用是将一小段数据写入到磁盘,从而保证数据不会丢失。
我们来看一下整体的操作思路: 记录用户的写入操作(insert,update,delete)-> 进行内部多次key-value映射的构建,包括主数据,辅助索引数据等-> 标记该用户操作完成。

触发器(trigger)
一个不难理解的概念,当发生insert , update , delete等操作的时候,可能会有一些需求需要依托这些操作而被触发执行其他的操作。比如每一行针对表A的更新,都会引发B表内的更新。那么 这个“引发”的过程,就是触发器。在一些其他的语言里面,这也被叫做callback,IFTTT,Listener等。 但核心概念都一样,被动的因为某个事件而触发一段代码逻辑的运行。
在一些数据库的实现中,甚至二级索引的更新也是使用触发器来完成的哦:)
在数据库内,触发器全部是同步实现的,也就是说,只有当数据写入的操作,以及触发器的操作全部都执行完成后,才会返回用户执行成功。

锁(lock)
锁的主要目标是允许线程圈定一批资源,并规定该资源只允许发出圈定请求的那个线程进行访问,而其他线程则必须等待。
这个概念产生的主要原因其实还是与计算机是图灵机有关。。本来计算机就是台图灵机,一个时钟周期内只能打一个字母,但这样他就很难同时做好几件事情,比如听着歌写代码,这件事其实从计算机硬件来说是做不到的,他只能模拟,利用时分复用的方式,把cpu的运算分解成小片,每个线程都只占用一小段时间,从而能够做到同一时间做好几件事。但是,想一想,如果我们希望一个人A用打字机打i am god. 而希望另外一个人B用同一台打字机打 pig is money. 开始,时间片分配给A,他打印了i am后,A被cpu换出,B被换入,打印了pig 后被其他人换出, 那么我们自然就发现。。数据就变成了。。。 那么锁的作用就是保证一个逻辑的原子操作没有完结的时候,这张打印纸只属于A,其他人不能对其进行访问或进行修改。
明白了原理,来简单看看实现,锁主要是由排他锁(写锁)和共享锁(读锁)构成,在数据库的锁实现中,有很多针对共享锁和排他锁相互组合的细节性描述,但其核心的问题却永远没变:
1) 尽可能的减少同一时间内被阻塞的线程数,从而提升并行度。
2) 尽可能的避免死锁
可以说数据库实现的是好是坏,关键就看着锁的优化好不好,这在分布式场景或者在单机内都是最重要的一个机制。

执行优化器
这是关系数据库得名的原因,主要的作用是将关系查询转换成key-value 查询,输入是sql的抽象语法树(ast),输出则是执行计划,就是各位在数据库命令行打explain sql时候出来的那些东西。
理解上很简单,但实际上实现起来却是最为复杂的,在上个世纪,大部分的执行优化器使用rule based optimizer,也就是基于规则的优化,但在现代数据库实现中,大部分的优化器都采取了cost based optimizer了,他们之间最大的不同,就是cbo更多的考虑了数据实际的区分度情况,从而能更简单准确的从。多个可选的索引中选择一个正确的索引。

sql解析器
作用很简单,把用户输入的sql转化为计算机可以理解的抽 语法树(不懂就去看编译原理:)

好了,基本组件儿介绍完毕,下面我们利用这些核心组件来尝试拼装一些外围的概念。



第一个概念是:存储过程。

我第一次接触数据库的时候,对存储过程比较不理解。认为数据库么,使用关系模型就足够了啊,为什么还要支持一种类似编程语言的东西来额外的增加系统的复杂度呢?而且在当时,有大量的高级程序员在介绍他们的经验的时候都会分享说:尽可能不使用存储过程,那玩意儿非常不容易维护,也会增加非常多的使用成本,应该把所有业务逻辑放在客户端。那么我自然就有个疑问,既然这些事情客户端都能做,那么还要存储过程干什么?可能第一次接触数据库的人也会有我之前的困惑吧。。。呵呵,所以既然我已经能解答这个问题,在这里自然而然的也要尝试给有相同问题的人解惑。


存储过程其实不是个复杂的概念,他的核心目标就是让数据库端能够运行逻辑代码(判断,循环..etc),甚至在oracle,存储过程可以做任何事。 我们排除oracle希望用户只用数据库来完成一切功能的阴谋论,来看看事情的本源是什么?或者说,有什么事情是存储过程能做,而其他方式做不了的?

很简单,也有很多人提到过,就是性能好。 那么,为什么会性能好呢?

这与我们目前的软件结构有关系,在当前,大部分情况下,数据库是一台独立的机器,而应用服务器则是另外一台独立的机器,那么,相互独立的机器之间要进行交互操作,势必需要使用网络来进行通信。

网络通信的代价比使用内存指针变更的代价大非常多,这就导致了一个直接的问题,如果使用网络进行多次交互,那么延迟会远远地大于使用内存来进行消息交互。延迟变大,意味着锁持有时间变长,也就意味着单位时间内针对同一个数据的操作频率下降,TPS就会下降。

这才是存储过程之所以能够提升性能的关键。 它不是恶魔,但也不是天使,能不能发挥出特定的优势,要看具体的业务场景需要。

我们做个简单的总结:

存储过程的好处,就是可以减少网络交互开销,可以用来封装一些需要高性能的小的业务逻辑单元。

存储过程的坏处,就是绑定到特定数据库上,同时,因为大部分存储过程是面向过程的代码,所以运维难度相对较大,不适于处理复杂业务逻辑。


第二个概念是:视图

视图这个概念也是我开始看数据库时候很晕的一个概念,在任何一个数据库内,数据库的说明文档中都会给出特别多中视图的实现,看起来就特别容易晕。经常有的困惑是: 为什么视图不能写数据? 以及,join本身也挺方便的的,我为什么还需要视图?


这里,为了解答这个问题,我们就需要来看看一种最常见的计算机优化方法: 将不确定性变成确定性。

很多情况下,如果你能提前预知不确定性的范围,往往就能大范围的减少锁的范围,或者将计算量进行分解。

视图,从一定程度上也是利用将不确定性变成确定性的方式,来实现join查询速度的优化和聚焦。


如果计算机不知道你预先需要把哪些表进行join操作,他能做的就只有使用最悲观的方式来对用户的行为进行假定,也就是最坏情况下,所有表都可能产生关联关系,并且关联的次数和频率都是均等的。那么针对这种场景,最安全的策略就是不缓存任何join的中间结果,而只使用通用的join算法进行join计算。

但是,如果用户通过自己的实际业务场景,发现其实有两个表是固定的被join在一起而进行查询的。 这种情况就符合了”将不确定性变成确定性“ 这个优化的前提,因此就可以进行一些优化,view从某种程度上来说,就是告知数据库这种确定性的一种手段。

数据库在获知这种hint后,就可以使用一些新的,空间换时间的方式,来预先进行一些操作,从而降低在join查询计算发生时所消耗的计算量。从而提升查询性能,降低系统开销。


ok,本篇到这,本篇主要是介绍了数据库的一些关键的概念,在下一篇,我将使用一些实际查询的例子,来帮助大家更易于理解在实际数据库中,上面的这些核心概念是如何被应用的。
本文来源于"阿里中间件团队播客",原文发表时间"    2013-08-26 "
相关文章
|
3月前
|
SQL 数据库 C++
C++ Qt开发:Charts与数据库组件联动
Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍`Charts`组件与`QSql`数据库组件的常用方法及灵活运用。在之前的文章中详细介绍了关于`QCharts`绘图组件的使用方式,本章将继续延续这个知识点,通过使用`QSql`数据库模块动态的读取某一个时间节点上的数据,当用户点击查询数据时则动态的输出该事件节点的所有数据,并将数据绘制到图形组件内,实现动态查询图形的功能。
34 0
C++ Qt开发:Charts与数据库组件联动
|
4月前
|
存储 SQL 数据库
C++ Qt开发:数据库与TableView多组件联动
在Qt中,通常我们不会在`TableView`等组件中保存数据,一般会将这些数据存储至数据库或者是文件中保存,当使用时则动态的在数据库中调出来,以下案例将实现,当用户点击并选中`TableView`组件内的某一行时,我们通过该行中的`name`字段查询,并将查询结果关联到`ListView`组件内,同时将`TableView`中选中行的字段分别显示在窗体底部的`LineEdit`编辑框内。Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍`TableView`
42 1
C++ Qt开发:数据库与TableView多组件联动
|
4月前
|
SQL 数据库连接 数据库
C++ Qt开发:QSqlDatabase数据库组件
Qt SQL模块是Qt框架的一部分,它提供了一组类和函数,用于在Qt应用程序中进行数据库操作。这个模块的目标是简化数据库访问和操作,并提供一致的接口,使得开发者可以方便地与不同数据库系统进行交互。一般SQL组件常用的操作,包括读取数据、插入数据、更新数据、删除数据功能,这四个功能我将分别介绍它是如何使用的。Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍`QSqlDatabase`数据库模块的常用方法及灵活运用。
27 0
C++ Qt开发:QSqlDatabase数据库组件
|
3月前
|
存储 缓存 数据库
Shiro【核心功能、核心组件、项目搭建 、配置文件认证、数据库认证 】(一)-全面详解(学习总结---从入门到深化)
Shiro【核心功能、核心组件、项目搭建 、配置文件认证、数据库认证 】(一)-全面详解(学习总结---从入门到深化)
40 1
|
8月前
|
存储 算法 NoSQL
常见分布式ID解决方案总结:数据库、算法、开源组件
分布式ID解决方案是用于在分布式系统中生成唯一标识符的方案。常见的分布式ID解决方案可总结为3点:数据库方案、算法方案、开源组件方案。
432 1
常见分布式ID解决方案总结:数据库、算法、开源组件
|
9月前
|
SQL 存储 Oracle
数据库访问和组件技术相关概念(ADO、ActiveX、DLL、ODBC等)详解
数据库访问和组件技术相关概念(ADO、ActiveX、DLL、ODBC等)详解
|
11月前
|
SQL 数据库连接 数据库
(简易)测试数据构造平台:40 - 复杂工具(数据库组件)
(简易)测试数据构造平台:40 - 复杂工具(数据库组件)
|
11月前
|
数据库连接 数据库
(简易)测试数据构造平台:39 - 复杂工具(数据库组件)
(简易)测试数据构造平台:39 - 复杂工具(数据库组件)
|
11月前
|
数据库连接 数据库 数据安全/隐私保护
(简易)测试数据构造平台:38 - 复杂工具(数据库组件)
(简易)测试数据构造平台:38 - 复杂工具(数据库组件)
|
11月前
|
存储 人工智能 数据库
App Inventor 2 本地存储之“微数据库”组件,App数据持久化
数据存储一般分为两大类:本地 和 网络,本地一般是数据文件的形式存储在手机上,本地App每次启动都可以共享读取,但是不同的手机之间不可以共享数据;如果需要多个手机之间共享获取或存储数据的话,那就需要用到网络数据库了(云数据库、网络微数据库,它们目前默认都是MIT服务器),它的原理就是用户A将数据通过网络传输到云服务器,然后用户B通过网络可以读取到用户A存储的数据,最典型的应用就是类似微信的聊天App了。 本地数据库一般指的就是“微数据库”,提供键、值方式的存储。
327 0