和其他数据库系统相比,MySQL有点与众不同,它的架构可以在多种场景中应用并发挥很好的作用。但是同事也会带来一点选择上的困难。MYSQL并不完美,却足够灵活,能适应高要求的环境,例如web类应用。同时mysql既可以嵌入到应用程序中,也可以支持数据仓库,内容索引和部署软件,高可用的冗余系统,在线事物处理系统(OLTP)等各种应用类型。
为了充分发挥mysql的性能并顺利地使用,及必须理解其架构设计。mysql的灵活性体现在很多方面。例如,你可以通过配置文件使它在不同的硬件上都运行得很好,也可以支持多种不同的数据类型。但是,mysql最重要,最与众不同的特性是它的存储引擎架构,这种架构的设计将查询处理(Query PRocessing)以及其他系统任务(Server Task)和数据的存储/提取相分离。这种处理和存储分离的设计可以在使用的时根据性能,特性,以及其他需求来选择数据存储的方式。
本章概要地描述了mysql的服务器架构,各种存储引擎之间的只要区别,以及这些区别的重要性。另外会回归一下mysql的历史背景和基准测试,并试图通过简化细节和演示案例来讨论mysql的原理。这些讨论无论是对数据库一无所知的新手,还是熟知其他数据库的专家,都不无裨益。
1.1 Mysql逻辑架构 如果能在头脑中构建出一副mysql各组件之间如何协同工作的架构图,就会有助于深入了解mysql服务器。图1.1展示了mysql的逻辑架构图。
【上面两张都是展示Mysql的逻辑架构图,好好理解!!!】
最上层的服务并不是mysql所独有的,大多数基于网络的客户端/服务器的工具或者服务都有类似的架构。不如连接处理,授权认证,安全等等。【这里说的是最上层的connector组件】
第二层架构是mysql比较有意思的部分。大多数mysql的核心服务功能都在这一层,包括查询解析,分析,优化,缓存以及所有的内置函数(例如日期,时间,数学和加密函数),所有跨存储引擎的功能都在这一层实现:存储过程,触发器,视图等等。【这一层包括有SQL接口,解析器(Parser),优化器(Optimizer)等】
第三层包含了存储引擎。存储引擎负责mysql中数据的存储和提取,还有和GNU/linux下的各种文件系统一样,每个存储引擎都有它的优势和劣势。服务器通过API与存储引擎进行通信。这些接口屏蔽了不同存储引擎之间的差异,使得这些差异对上层的查询过程透明。存储引擎API包含了几十个底层函数,用于执行诸如“开始一个事务”或者“根据主键提取一行记录”等操作。但是存储引擎不会去解析SQL,不同存储引擎之间也不会互相通信,而只是简单地相应上层服务器的请求。
【SQL接口会判断查询缓存是否命中,否则就会交给解析器进行处理,走一遍流程】 【解释SQL语句是第二层中解析器(Parser)处理的,生成相应的数据结构交给优化器(Optimizer)】 【但是InnoDB这个会去解析SQL中的外键定义】
1.1.1 连接管理与安全性 每个客户端连接都会在服务器进程中拥有一个线程,这个连接的查询指挥在这个单独的线程中执行,该线程只能轮流在某个CPU核心或者CPU中运行。服务器会负责缓存线程,因此不需要为每一个新建的连接创建或者销毁线程。【这个线程可能由Management Service & Utilities来在连接池中进行管理???】
当客户端(应用程序)连接到mysql服务器的时候,服务器需要对其进行认证。认证基于用户名,原始主机信息和密码。如果使用了安全套接字(SSL)的方法连接,还可以使用X.509证书认证。一旦客户端连接成功,服务器会继续验证该客户端是否具有执行某一个特定查询的权限(例如,是否允许客户端对world数据库的country表执行select语句)。
1.1.2 优化与执行(Optimizer和存储引擎之间的关系)
Mysql会解析查询,并创建内部数据结构(解析树)【应该是在解析器(Parser)中生成】,然后对其进行各种优化,包括重写查询,决定表的读取顺序,以及选择合适的索引等。用户可以通过特俗的关键字提示(hint)优化器,影响它的决策过程【意思就是我们用户的SQL语句会影响优化器】。也可以请求优化器解释(explain)优化过程各个因素。使用户可以知道服务器是如何进行优化决策的,并提供一个参考的基准,便于用户重构查询和schema,修改相关配置,使应用尽可能高效运行。后面的章节我们会讨论更多优化器(Optimizer)的细节。
优化器(Optimiszer)并不关心表使用的是什么存储引擎,但是存储引擎对于优化查询是有影响的。优化器会请求存储引擎提供容量或者某个具体操作的开销信息,以及表数据的统计信息等。例如,某些存储引擎的某种索引,可能对一些特定的查询有优化。关于索引和schema的优化,下面会继续详细讨论。
对于select语句,在解析查询之前,服务器会先检查查询缓存(Query Cache),如果能够在其中找到对应的查询,服务器就不必再执行查询解析,优化和执行的整个过程,而是直接返回查询缓存中的结果集。后面的章节还会详细讨论的。
1.2 并发控制 无论何时,只有有多个查询需要在同一时刻修改数据,都会产生并发控制的问题。本章的目的是讨论mysql在两个层面的并发控制:服务器层与存储引擎层。并发控制是一个内容庞大的话题,有大量的理论文献对其进行详细的论述。本章只是简要地讨论mysql如何控制并发读写,因此读者需要有相关的只是来理解本章接下来的内容。
以unix系统的email box为例子,典型的mbox文件格式是非常简单的。一个mbox邮箱中的所有邮件都串行在一起,彼此首尾相连。这种格式对于读取和肥西邮件信息非常友好,同时投递邮件也很容易,只要在文件末尾附加新的邮件内容即可。
但是如果两个进程在同一时刻对同一个邮箱投递邮件,会发生什么情况?显然,邮箱的数据会被破坏,两封邮件的内容会交叉地附加在邮箱文件的末尾。设计娘好的邮箱投递系统会通过锁(lock)来防止数据损坏。如果客户试图投递邮件,而邮箱已经被其他客户锁住,那么就必须等待,直到锁释放才能进行投递。
这种锁的方案在世纪应用环境中虽然工作良好,但是并不支持并发处理。因为在任意一个时刻,只有一个进程可以修改邮箱的数据,这在大容量的邮箱系统中是个问题。
1.2.1 读写锁 从邮箱中读取数据没有这样的麻烦,即使同一时刻多个用户并发读取也不会有什么问题。因为读取不会修改数据,所以不会出错。但是如果某个客户正在读取邮箱,同时另一个用户试图删除编号为25的邮件,会产生什么结果?结论是不确定的,读的客户可能会报错退出,也可能读取不到一致的邮箱数据。所以,为了安全起见,即使是读取邮箱也需要特别注意。
如果把上述的邮箱当成数据库中的一张表,把邮件当成表中的一行记录,就很容易看出,同样的问题依然存在。从很多方面来说,邮箱就是一张简单的数据库表。修改数据库表中的记录,和删除或者修改邮箱中的邮件信息,十分类似。
解决这类经典的问题的方法就是并发控制(读锁和写锁)。其实非常简单,在处理并发读或者写的时候,可以通过实现一个由两种类型的锁组成锁系统来解决问题。这两种类型的锁通常被称为共享锁(shared lock)和排他锁(exclusive lock),也叫读锁(read lock)和写锁(write lock)。
这里先不讨论如何具体实现,描述一下锁的概念如下:读锁是共享的,或者说是相互不阻塞的。多个客户在同一时刻可以同时读取同一资源,而互不干扰。写锁则是排他的,也就是说一个写锁会阻塞其他的写锁和读锁,这是出于安全策略的考虑,只有这样,才能确保给定的时间里,只有一个用户能执行写入,并防止其他用户读取正在写入的同一资源。
在实际的数据库系统中,每时每刻都在发生锁定,当某个用户在修改某一部分数据的时候,mysql会通过锁定防止其他用户读取同一数据。大多数时候,mysql锁的内部管理都是透明的。
1.2.2 锁粒度 一种提供共享资源并发性的方式就是让锁定对象更有选择性。尽量只锁定需要修改的部分数据,而不是所有的资源。更理想的方式是,只对会修改的数据片(具体到锁定所修改的字段)进行精确的锁定。任何时候,在给定的资源上,锁定的数据量越少,则系统的并发成都越高,只要互相之间不发生冲突即可。
问题是加锁也需要消耗资源。锁的各种操作,包括获得锁,检查锁是否已经被解除,释放锁等,都会增加系统的开销。如果系统话费大量的时间来管理锁,而不是存取数据,那么系统的性能可能因此受到影响。
所谓的锁策略,就是在锁的开销和数据的安全性之间寻求平衡,这种平衡当然有会影响到性能,大多数商业数据库系统没有提供更多的选择,一般都是在表上施加行级锁(row-level-lock),并以各种复杂的方式来实现,以便在锁比较多的情况下尽可能地提供更好的性能。
而mysql则提供多种选择,每种MYSQL存储引擎都可以实现自己的锁策略和锁粒度。在存储引擎的设计中,锁管理是个非常重要的决定。将锁粒度固定在某个级别,可以为某些特定的应用场景提供更好的性能。但是同事却会失去对另外一些应用场景的良好支持。好在Mysql支持多个存储引擎的架构,所以不需要单一的通用解决方案。下面介绍两种最重要的锁策略。
表锁(table lock) 表锁是mysql中最基本的锁策略,并且是开销最小的策略。表锁非常类似于前文描述的邮箱加锁机制:它会锁定整张表。一个用户在对表进行写操作(插入,删除,更新等等)前,需要先获得写锁,这个会阻塞其他用户对该表的所有读写操作。只有没有写锁的时候,其他读取的用户才能获得读锁,读锁之间是不互相阻塞的。
在特定的场景中,表锁也可能有良好的性能。例如,read local表锁支持某些类型的并发写操作。另外,写锁也比读锁有更高的优先级,因此一个写锁请求可能会被插入到读锁队列的前面(写锁可以插入到锁队列中读锁的前面,反之读锁则不能插入写锁的前面)。
尽管存储引擎可以管理自己的锁,Mysql本身还是会使用各种有效的表锁来实现不同的目的。例如服务器会诸如alter table之类的语句使用表锁,而忽略存储引擎的锁机制。
【备注:锁机制是存储引擎管理的,但是Mysql本身也会有时候强制管理这个锁机制】
行级锁(row lock) 行级锁可以最大程度地支持并发处理(同时也带来了最大的锁开销)。众多周知,在InnoDB和XtraDB,以及其他一些存储引擎中实现了行级锁。行级锁只在存储引擎层实现,而Mysql服务器层(如果有必要,请回顾前文的逻辑架构图)没有实现。服务器层完全不了解存储引擎中的锁实现。在本章的后续内容以及全书中,所有的存储引擎都以自己的方式显示了锁机制。
1.3 事务(ACID) 在理解事务的概念之前,接触数据库系统的其他高级特性还言之过早。事务就是一组原子性的SQL查询,或者说一个独立的工作单元。如果数据库引擎能够成功对数据库应用该组查询的全部语句,那么久执行该组查询。如果其中有任何一条语句因为崩溃或者其他原因无法执行,那么所有的语句都不会执行。也就是说,事务内的语句,要么全部执行成功,要不全部执行失败。
【备注:事务就是多条SQL语句组成的集合,集合里面的每条语句都执行成功,这个集合里面的全部语句才会全部被执行;其中一条语句执行失败,那么这个集合全部语句都不会执行。】
本节的内容并非专属于Mysql,如果读者已经熟悉了事务的ACID的概念。可以直接跳转到1.3.4节。
银行应用是解释事务必要性的一个经典例子。假设一个银行的数据库有两站表:支票表(checking)和储蓄表(savings)。现在要从用户jane的支票账户转移200美元到她的储蓄账户,那么需要至少三个步骤:
(1)检查支票账户的余额是否高于200美元; (2)从支票账户余额中减去200美元; (3)在储蓄账户余额中增加200美元;
上述三个步骤的操作必须打包在一个事务中,任何一个步骤失败,则必须回滚所有的步骤。
我们可以使用关键词start transaction语句开始一个事务,然后要么使用commit提交事务将修改的数据持久保留,要么使用rollback撤销所有的修改。事务SQL语句的样本如下:
1,start transaction; 2,select balance from checking where customer_id = 10233276; 3,update checking set balance = balance-200.00 where customer_id = 10233276; 4,update savings set balance = balance+200.00 where customer_id = 10233286; 5,commit;
单纯的事务概念并不是故事的全部。试想一下,如果执行到第四条语句的时候 服务器崩溃了,这将会发生什么?天知道,用户可能会损失200美元。再假如,在执行到第三条语句和第四条语句之间时间,另外一个进程要删除支票账户的所有余额,那么结果可能就是银行在不知道这个逻辑的情况下白白给了jane200美元。
除非系统通过严格的ACID测试,否则空谈事务的概念是不够的。ACID表示原子性,一致性,隔离型和持久性。一个运行良好的事务处理系统,必须具有这些标准特征。
原子性(A) 一个事务必须被视为一个不可分割的最小工作单元,整个事务中的所有操作要么全部提交成功,要么全部失败回滚,对于一个事务来说,不可能只执行其中的一部分操作,这就是事物的原子性。
一致性(C) 数据库总是从一个一致性的状态转换到另外一个一致性的状态。在前面的例子中,一致性确保了,即使在执行第三,第四条语句之前的时候系统崩溃了,支票账户也不会损失200美元,因为事务最终没有提交,所以事务中所做的修改也不会保存到数据库中。
隔离型(I) 通常来说,一个事务所做的修改在最终提交以前,对其他事务时不可见的。在前面的例子中,当执行完第三条语句,第四条语句还没开始的时候,此时有另外一个账户汇总程序开始运行,则其看到的支票账户的余额并没有被减去200美元。后面我们讨论隔离级别(Isolation level)的时候,会发现为什么我们要说“通常来说”是不可见的。
持久性(D) 一旦事务提交了,则其所做的修改就会永久保存到数据库中。此时即使系统崩溃,修改的数据库也不会丢失。持久性是一个有点模糊的概念。因为实际上持久性也分很多不同的级别。有些持久性策略能够提供非常强的安全保证,而有些则未必。而且不可能又能做到100%的持久性保证的策略(如果数据库本身就能做到真正就吃行买,那么备份又怎么能增加持久性呢?)后面的章节,我们将会继续讨论持久性的真正含义。
新闻热点
疑难解答