记一次线上翻车:加了Redisson分布式锁,数据还是被并发打穿了

3 阅读5分钟

记一次线上翻车:加了Redisson分布式锁,数据还是被并发打穿了

前阵子接了个需求,场景很简单:用户并发操作某个资源(比如领取限量优惠券,或者高频修改某个配置)。这种防并发超卖的场景,老 Java 开发闭着眼睛都能想到一套组合拳:Spring Boot + @Transactional + Redisson 分布式锁

当时我咔咔一顿敲,代码写得极其丝滑,本地单线程测了没毛病,直接提测上线。结果上线第一天,运营跑过来说:“后台数据不对啊,怎么同一个资源被重复扣了两次?”

我当时心里一句卧槽,赶紧去看日志。不看不知道,一看麻了:虽然加了分布式锁,但在极高并发下,锁竟然“失效”了!

今天给大家复盘一下这个差点让我背绩效 C 的坑。

还原当时的“作死”代码

为了直观,我把当时的业务代码简化一下。大体逻辑是这样的:查询数据库中的剩余量 -> 判断是否足够 -> 扣减 -> 保存。

Java

@Service
public class ResourceServiceImpl implements ResourceService {

    @Autowired
    private RedissonClient redissonClient;
    @Autowired
    private ResourceMapper resourceMapper;

    @Override
    @Transactional(rollbackFor = Exception.class)
    public void consumeResource(String resourceId) {
        String lockKey = "lock:resource:" + resourceId;
        RLock lock = redissonClient.getLock(lockKey);

        try {
            // 尝试获取锁,最多等3秒
            if (lock.tryLock(3, TimeUnit.SECONDS)) {
                // 1. 查数据库当前库存
                Resource res = resourceMapper.selectById(resourceId);
                if (res.getStock() > 0) {
                    // 2. 扣减
                    res.setStock(res.getStock() - 1);
                    resourceMapper.updateById(res);
                } else {
                    throw new RuntimeException("库存不足");
                }
            } else {
                throw new RuntimeException("系统繁忙,请重试");
            }
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
        } finally {
            // 3. 释放锁
            if (lock.isLocked() && lock.isHeldByCurrentThread()) {
                lock.unlock();
            }
        }
    }
}

各位大佬看看,这代码是不是很眼熟?@Transactional 保证事务,try...finally 保证锁必定释放。这代码不管怎么 Review,逻辑上都没毛病啊!

但是,并发一上来,数据库的库存还是出现了负数。

揪出真凶:锁释放与事务提交的时差

排查了大半天,抓了 MySQL 的 binlog 和 Redis 的执行日志对比,终于发现了问题所在:Spring AOP 的锅。

大家回忆一下 @Transactional 的底层原理。Spring 是通过 AOP 动态代理来实现事务的,相当于在你的业务方法外层包了一层:

Java

// Spring 代理类的伪代码
public void proxyConsumeResource(String resourceId) {
    // 1. 开启数据库事务
    connection.setAutoCommit(false); 
    try {
        // 2. 执行你的真实业务逻辑(包含加锁、改数据、释放锁)
        target.consumeResource(resourceId); 
        // 3. 提交事务
        connection.commit(); 
    } catch (Exception e) {
        connection.rollback();
    }
}

看出致命问题了吗?!

在我的业务代码里,finally 块执行了 lock.unlock(),此时分布式锁已经被释放了。但是!此时 target.consumeResource() 方法才刚刚执行完,Spring 代理类的 connection.commit() 还没执行!

也就是说,锁已经没了,但数据还没落盘。

这时候,如果有另一个线程(线程B)并发打进来:

  1. 线程B看到 Redis 里没有锁,顺利拿到锁。
  2. 线程B去查数据库。因为线程A的事务还没 commit,线程B查到的还是老数据
  3. 线程B拿着老数据做扣减。
  4. 线程A提交事务,线程B紧接着也提交事务。

完美,脏写产生了,数据被彻底打穿。

填坑方案:让锁多飞一会儿

找到原因后,解决起来就非常简单了。核心思想只有一个:必须保证事务提交之后,再释放锁。

方案一:粗暴拆分(推荐)

直接把加锁的逻辑往上提,放到 controller 层,或者再包一层 service。确保锁的范围大于事务的范围。

Java

@Service
public class ResourceLockService {

    @Autowired
    private RedissonClient redissonClient;
    @Autowired
    private ResourceServiceImpl resourceService; // 注入原来的事务Service

    public void safeConsume(String resourceId) {
        String lockKey = "lock:resource:" + resourceId;
        RLock lock = redissonClient.getLock(lockKey);

        try {
            if (lock.tryLock(3, TimeUnit.SECONDS)) {
                // 调用事务方法,由于事务方法是一个独立的 proxy,
                // 执行完毕返回到这里时,事务已经 commit 啦!
                resourceService.consumeResource(resourceId); 
            }
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
        } finally {
            if (lock.isLocked() && lock.isHeldByCurrentThread()) {
                lock.unlock();
            }
        }
    }
}

注:注意不要在同一个类里写这两个方法直接 this 调用,会导致 AOP 失效,老生常谈了。

方案二:编程式事务

如果你不想多写一层类,可以使用 TransactionTemplate 手动控制事务的边界。

Java

// 在获取锁之后执行:
transactionTemplate.execute(status -> {
    // 查库、扣减、更新
    return null;
});
// 事务提交完毕,再进入 finally 释放锁

顺便提一嘴的坑:Redisson 看门狗失效

借着这个机会,再分享一个很多人用 Redisson 容易踩的坑。有些哥们喜欢在加锁的时候传 leaseTime(锁过期时间):

Java

// 试图加锁,等待3秒,锁定10秒后自动释放
lock.tryLock(3, 10, TimeUnit.SECONDS); 

一旦你显式传入了 leaseTimeRedisson 的 WatchDog(看门狗)机制就会失效! 如果你的业务逻辑执行时间超过了 10 秒(比如发生了 Full GC 或者调了很慢的第三方接口),锁会自动释放,其他线程就会趁虚而入。

正确做法是,如果不知道业务具体执行多久,千万别传 leaseTime

Java

// 只传等待时间,不传 leaseTime,看门狗机制生效,会自动帮你续期
lock.tryLock(3, TimeUnit.SECONDS); 

总结

平时的业务开发中,@Transactional 和各种锁(包括本地锁 synchronized 和分布式锁)一起用的时候,一定要多留个心眼,画一画它们的作用域边界。

有时候真不是底层组件不行,纯粹是我们没把 Spring AOP 的执行顺序盘明白。希望我这次的血泪教训,能帮大家少掉几根头发。大家在线上还踩过什么离谱的并发坑?欢迎评论区交流一波~