带你一起探索事务的奥义

310 阅读16分钟

「本文已参与好文召集令活动,点击查看:后端、大前端双赛道投稿,2万元奖池等你挑战!

本地事务

事务(Transaction)是访问并可能更新数据库中各种数据项的一个程序执行单元(unit)

事务的特性

  • 原子性:一系列操作整体不可拆分,要么同时成功要么同时失败;
  • 一致性:数据在业务的前后,业务整体一致;
  • 隔离性:事物之间需要相互隔离;
  • 持久性:事务一旦被提交,它对数据库中数据的改变就是永久性的,接下来即使数据库发生故障也不应该对其有任何影响。

事务的作用

事务管理对于企业级应用而言至关重要,它保证了用户的每一次操作都是可靠的,即便出现了异常的访问情况,也不至于破坏后台数据的完整性。就像银行的自动提款机ATM,通常ATM都可以正常为客户服务,但是也难免遇到操作过程中及其突然出故障的情况,此时,事务就必须确保出故障前对账户的操作不生效,就像用户刚才完全没有使用过ATM机一样,以保证用户和银行的利益都不受损失。

并发下事务会产生的问题

  • 脏读

所谓脏读,就是指事务A读到了事务B还没有提交的数据,比如银行取钱,事务A开启事务,此时切换到事务B,事务B开启事务-->取走100元,此时切换回事务A,事务A读取的肯定是数据库里面的原始数据,因为事务B取走了100块钱,并没有提交,数据库里面的账务余额肯定还是原始余额,这就是脏读。

  • 不可重复读

所谓不可重复读,就是指在一个事务里面读取了两次某个数据,读出来的数据不一致。还是以银行取钱为例,事务A开启事务-->查出银行卡余额为1000元,此时切换到事务B事务B开启事务-->事务B取走100元-->提交,数据库里面余额变为900元,此时切换回事务A,事务A再查一次查出账户余额为900元,这样对事务A而言,在同一个事务内两次读取账户余额数据不一致,这就是不可重复读。

  • 幻读

所谓幻读,就是指在一个事务里面的操作中发现了未被操作的数据。比如学生信息,事务A开启事务-->修改所有学生当天签到状况为false,此时切换到事务B,事务B开启事务-->事务B插入了一条学生数据,此时切换回事务A,事务A提交的时候发现了一条自己没有修改过的数据,这就是幻读,就好像发生了幻觉一样。幻读出现的前提是并发的事务中有事务发生了插入、删除操作

事物的隔离级别

  • DEFAULT

Spring默认的隔离级别。 表示使用数据库默认的事务隔离级别,MySQL默认采用的Repeatable Read隔离级别,Oracle默认采用的Read Committed隔离级别

  • Read Uncommitted(读取未提交内容)

在该隔离级别,所有事务都可以看到其他未提交事务的执行结果。本隔离级别很少用于实际应用,因为它的性能也不比其他级别好多少。读取未提交的数据,也被称之为脏读(Dirty Read)。

  • Read Committed(读取提交内容)

这是大多数数据库系统的默认隔离级别(但不是MySQL默认的)。它满足了隔离的简单定义:一个事务只能看见已经提交事务所做的改变。这种隔离级别 也支持所谓的不可重复读(Nonrepeatable Read),因为同一事务的其他实例在该实例处理其间可能会有新的commit,所以同一select可能返回不同结果。

  • Repeatable Read(可重读)

这是MySQL的默认事务隔离级别,它确保同一事务的多个实例在并发读取数据时,会看到同样的数据行。不过理论上,这会导致另一个棘手的问题:幻读 (Phantom Read)。简单的说,幻读指当用户读取某一范围的数据行时,另一个事务又在该范围内插入了新行,当用户再读取该范围的数据行时,会发现有新的“幻影” 行。InnoDB和Falcon存储引擎通过多版本并发控制(MVCC,Multiversion Concurrency Control)机制解决了该问题。

  • Serializable(可串行化)

这是最高的隔离级别,它通过强制事务排序,使之不可能相互冲突,从而解决幻读问题。简言之,它是在每个读的数据行上加上共享锁。在这个级别,可能导致大量的超时现象和锁竞争。

事务传播行为

  • PROPAGATION_REQUIRED: (Spring默认的事务传播行为) 如果当前没事事务,就创建一个新事务,如果当前存在事务,就加入该事务,该设置时最常使用的配置

  • PROPAGATION_SUPPORTS:支持当前事务。如果当前存在事务,就加入该事务,如果当前不存在事务,就以非事务执行

  • PROPAGATION_MANDATORY:支持当前事务,如果当前存在事务,就加入该事务,如果当前不存在该事务,就抛出异常

  • PROPAGATION_REQUIRES_NEW:创建新事务,无论当前存不存在事务,都创建新事务

  • PROPAGATION_NOT_SUPPORTED:以非事务的方式执行操作,如果当前存在事务,就把当前事务挂起

  • PROPAGATION_NEVER: 以非事务方式运行,如果当前存在事务,则抛出异常

  • PROPAGATION_NESTED: 如果当前存在事务,就嵌套在该事务内执行,如果当前没有事务,则执行PROPAGATION_REQUIRED相关操作

a37a702d330dc07c38431541b5ee57c

分布式事务

b74a99d1f8e2b62b35d5ffe3caca8a6 分布式系统会把一个应用系统拆分为可独立部署的多个服务,因此需要服务与服务之间远程协作才能完成事务操作,这种分布式系统环境下由不同的服务之间通过网络远程协作完成事务称之为分布式事务,例如用户注册送积分事务、创建订单减库存事务,银行转账事务等都是分布式事务。

我们知道本地事务依赖数据库本身提供的事务特性来实现,因此以下逻辑可以控制本地事务:

begin transaction;
    //1.本地数据库操作:张三减少金额
    //2.本地数据库操作:李四增加金额
commit transation;

但是在分布式环境下,会变成下边这样:

begin transaction;
    //1.本地数据库操作:张三减少金额
    //2.远程调用:让李四增加金额
commit transation;

可以设想,当远程调用让李四增加金额成功了,由于网络问题远程调用并没有返回,此时本地事务提交失败就回滚了张三减少金额的操作,此时张三和李四的数据就不一致了。

因此在分布式架构的基础上,传统数据库事务就无法使用了,张三和李四的账户不在一个数据库中甚至不在一个应用系统里,实现转账事务需要通过远程调用,由于网络问题就会导致分布式事务问题。

CAP定理与BASE理论

CAP 原则又称 CAP 定理指的是在一个分布式系统中

  • 一致性(Consistency)
    • 在分布式系统中所有数据备份,在同一时刻是否是同样的值,(等同于所有节点访问同一份最新数据的副本)
  • 可用性(Avaliability)
    • 在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求,(对数据更新具备高可用性)
  • 分区容错性(Partition tolerance)
    • 大多数分布式系统都分布在多个子网络,每个自网络叫做一个区(partition)。分区容错性的意思是,区间通信可能失败,比如,一台服务器放在中国另一台服务器放在美国,这就是两个区,它们之间可能无法通信

CAP 的原则是,这三个要素最多只能满足两个点,不可能三者兼顾 image-20201119194354467

一般来说,分区容错无法避免,因此我们可以认为 CAP 的 P 总是成立,CAP 定理告诉我们 剩下的 C 和 A 无法同时做到 分布式实现一致性的 Raft 算法

BASE 理论

是对CAP的延申,思想即是无法做到强一致性(CAP的一致性就是强一致性),但可以采用适当的弱一致性,即最终一致性

BASE 是指

  • 基本可用(Basically Avaliable)
    • 基本可用是指分布式系统中在出现故障的时候,允许损失部分可用性(列入响应时间,功能上的可用性)允许损失部分可用性。需要注意的是基本可用不等价于系统不可用
    • 响应时间上的损失,正常情况下搜索引擎需要在0.5秒之内返回给用户相应的查询结果,但由于出现故障(比如系统部分机房断电断网故障),查询的结果响应时间增加到了1~2秒
    • 功能上的损失,购物网站双十一购物高峰,为了保证系统的稳定性,部分消费者会被引入到一个降级页面
  • 软状态(Soft State)
    • 软状态是指允许 系统存在中间状态,而该中间状态不会影响系统整体可用性。分布式存储中一般一份数据会有 多个副本,允许不同副本同步的延时就是软状态的体现。mysglreplication的异步复制也是一种体现。
  • 最终一致性( Eventual Consistency)
    • 最终致性是指系统中的所有数据副本经过一定时间后,最终能够达到一 致的状态。弱一致性和强一致性相反,最终-致性是弱一致性的一种特殊情况。

强一致性、弱一致性、最终一致性

从客户端角度,多进程并发访问时,更新过的数据在不同进程如何获取的不同策略,决定了不同的一致性。对于关系型数据库,要求更新过的数据能被后续的访问都能看到,这是强一致性。如果能容忍后续的部分或者全部访问不到,则是弱一致性。如果经过一段时间后要求能访问到更新后的数据,则是最终一致性

分布式事务的几种方案

2PC 模式

数据库支持的 2PC[2 phase commit 二阶提交],又叫 XA Transactions

MySQL 从5.5版本开始支持,Sql Server 2005 开始支持,oracle7 开始支持

其中,XA 是一个两阶段提交协议,该协议分为两个阶段:

第一阶段:事务协调器要求每个涉及到事务的数据库预提交(precommit)此操作,并反应是否可以提交

第二阶段:事务协调器要求每个数据库提交数据

其中,如果有任何一个数据库否认这次提交,那么所有数据库都会要求回滚他们在此事务中的那部分信息

image-20201120090516086

  • XA协议比较简单,而且一旦商业数据库实现了XA协议,使用分布式事务的成本也比较低。
  • XA性能不理想,特别是在交易下单链路,往往并发量很高,XA无法满足高并发场景
  • XA目前在商业数据库支持的比较理想,在mysql数据库中支持的不太理想
  • XA实现,没有记录prepare阶段日志,主备切换回导致主库与备库数据不一致。
  • 许多Nosql也没有支持XA,这让XA的应用场景变得非常狭隘。
  • 也有3PC,引入了超时机制(无论协调者还是参与者,在向对方发送请求后,若长时间未收到回应则做出相应处理)

3pc模式

三阶段提交(Three-phase commit),是二阶段提交(2PC)的改进版本。

与两阶段提交不同的是,三阶段提交有两个改动点。

  • 引入超时机制。同时在协调者和参与者中都引入超时机制。
  • 在第一阶段和第二阶段中插入一个准备阶段。保证了在最后提交阶段之前各参与节点的状态是一致的。

也就是说,除了引入超时机制之外,3PC把2PC的准备阶段再次一分为二,这样三阶段提交就有CanCommit、PreCommit、DoCommit三个阶段。

  • CanCommit阶段 3PC的CanCommit阶段其实和2PC的准备阶段很像。协调者向参与者发送commit请求,参与者如果可以提交就返回Yes响应,否则返回No响应。

事务询问: 协调者向参与者发送CanCommit请求。询问是否可以执行事务提交操作。然后开始等待参与者的响应。 响应反馈: 参与者接到CanCommit请求之后,正常情况下,如果其自身认为可以顺利执行事务,则返回Yes响应,并进入预备状态。否则反馈No

  • PreCommit阶段 协调者根据参与者的反应情况来决定是否可以记性事务的PreCommit操作。根据响应情况,有以下两种可能。
假如协调者从所有的参与者获得的反馈都是Yes响应,那么就会执行事务的预执行。

发送预提交请求: 协调者向参与者发送PreCommit请求,并进入Prepared阶段。 事务预提交: 参与者接收到PreCommit请求后,会执行事务操作,并将undo和redo信息记录到事务日志中。 响应反馈: 如果参与者成功的执行了事务操作,则返回ACK响应,同时开始等待最终指令。

假如有任何一个参与者向协调者发送了No响应,或者等待超时之后,协调者都没有接到参与者的响应,那么就执行事务的中断。

发送中断请求: 协调者向所有参与者发送abort请求。 中断事务: 参与者收到来自协调者的abort请求之后(或超时之后,仍未收到协调者的请求),执行事务的中断。

  • doCommit阶段 该阶段进行真正的事务提交,也可以分为以下两种情况。
  • 执行提交

    • 发送提交请求 协调接收到参与者发送的ACK响应,那么他将从预提交状态进入到
    • 提交状态。并向所有参与者发送doCommit请求。
    • 事务提交 参与者接收到doCommit请求之后,执行正式的事务提交。并在完成事务提交之后释放所有事务资源。
    • 响应反馈 事务提交完之后,向协调者发送Ack响应。
    • 完成事务 协调者接收到所有参与者的ack响应之后,完成事务。
  • 中断事务:协调者没有接收到参与者发送的ACK响应(可能是接受者发送的不是ACK响应,也可能响应超时),那么就会执行中断事务。

    • 发送中断请求 协调者向所有参与者发送abort请求
    • 事务回滚 参与者接收到abort请求之后,利用其在阶段二记录的undo信息来执行事务的回滚操作,并在完成回滚之后释放所有的事务资源。
    • 反馈结果 参与者完成事务回滚之后,向协调者发送ACK消息
    • 中断事务 协调者接收到参与者反馈的ACK消息之后,执行事务的中断。

2PC与3PC的区别

相对于2PC,3PC主要解决的单点故障问题,并减少阻塞,因为一旦参与者无法及时收到来自协调者的信息之后,他会默认执行commit。而不会一直持有事务资源并处于阻塞状态。但是这种机制也会导致数据一致性问题,因为,由于网络原因,协调者发送的abort响应没有及时被参与者接收到,那么参与者在等待超时之后执行了commit操作。这样就和其他接到abort命令并执行回滚的参与者之间存在数据不一致的情况。

了解了2PC和3PC之后,我们可以发现,无论是二阶段提交还是三阶段提交都无法彻底解决分布式的一致性问题。Google Chubby的作者Mike Burrows说过, there is only one consensus protocol, and that’s Paxos” – all other approaches are just broken versions of Paxos. 意即世上只有一种一致性算法,那就是Paxos,所有其他一致性算法都是Paxos算法的不完整版。后面的文章会介绍这个公认为难于理解但是行之有效的Paxos算法。

柔性事务 - TCC 事务

刚性事务:遵循ACID原则,强一致性。 柔性事务:遵循BASE理论,最终一致性; 与刚性事务不同,柔性事务允许一定时间内,不同节点的数据不一致,但要求最终一致。 image-20201120090923734 一阶段 prepare 行为:调用自定义的 prepare 逻辑。 二阶段 commit 行为:调用自定义的 commit 逻辑。 二阶段 rollback行为:调用自定义的 rollback 逻辑。 所谓TCC模式,是指支持把自定义的分支事务纳入到全局事务的管理中。

柔性事务 - 最大努力通知型方案

按规律进行通知,不保证数据定能通知成功, 但会提供可查询操作接口进行核对。这种方案主要用在与第三方系统通讯时,比如:调用微信或支付宝支付后的支付结果通知。这种方案也是结合MQ进行实现,例如:通过MQ发送http请求,设置最大通知次数。达到通知次数后即不再通知。

案例:银行通知、商户通知等(各大交易业务平台间的商户通知:多次通知、查询校对、对账文件),支付宝的支付成功异步回调

柔性事务 - 可靠信息 + 最终一致性方案(异步通知型)

实现:业务处理服务在业务事务提交之前,向实时消息服务请求发送消息,实时消息服务只记录消息数据,而不是真正的发送。业务处理服务在业务事务提交之后,向实时消息服务确认发送。只有在得到确认发送指令后,实时消息服务才会真正发送。