LangGraph 新引入的 Replay 机制引起的 Regression 问题分析LangGraph 1.1.x 新

1. 问题概述

在 LangGraph 1.1.0 版本中，新的 replay 机制导致了在执行子图回放时的回归问题。具体表现为，当根图通过子图的 checkpoint 配置执行回放时，程序没有正确停留在目标中断点（interrupt）处，而是回到了更早的节点。这个问题影响了嵌套子图和多次中断的场景，导致了不应重复执行的节点被再次执行，顺序错乱。

2. 问题根源分析

通过对问题的追踪，确定了以下两个根本原因：

2.1 checkpoint 选择错误

在 1.1.0 版本中，ReplayState.get_checkpoint() 在处理嵌套回放时，优先走了父图的回放路径，而没有正确地使用配置中提供的子图 checkpoint_id。这样导致了回放回到了比目标节点更早的位置。

2.2 RESUME 状态错误保留

在执行恢复时，根图会将 RESUMING=True 状态传递给子图，表示恢复状态。然而，在回放时，这会导致子图错误地将回放视作“恢复”，从而保留了旧的 RESUME 状态，导致已经完成的节点被重复执行，最终造成顺序错乱。

3. 解决方案：语义完整性与准确回放

我提出的解决方案从语义完整性角度出发，主要分为以下两类改动：

3.1 优先使用子图的 `checkpoint_id`

我通过修复子图回放中的 checkpoint_ns 处理逻辑，确保当配置中明确给出 checkpoint_id 时，运行时优先使用该值。这保证了回放会精确到指定的子图 checkpoint，而不是回到父图中的更早 checkpoint。

具体实现中，我在 _replay.py 文件中加入了对 checkpoint_ns 的稳定化处理，并使用 recast_checkpoint_ns() 去掉运行时的 task-id 后缀。这保证了能够从 checkpoint_map[stable_ns] 中正确读取到精确的子图 checkpoint。

3.2 修复 RESUME 状态问题

我还通过在 _loop.py 文件中，区分了普通的回放（replay）和精确的子图回放（exact subgraph replay），确保在执行回放时不会错误地将父图的 RESUME 状态传递给子图。对于精确的子图回放，清理了不必要的 RESUME writes，从而避免了历史数据的干扰，保证了回放语义的准确性。

4. 优点与效果

通过这些修改，最终解决了以下问题：

精确回放到目标子图的 checkpoint，避免回到错误的 interrupt 点。
修复了中断顺序错误的问题，保证了节点的执行顺序与预期一致。
解决了不必要的节点重复执行，优化了异步和同步执行的正确性。

这些改动确保了 1.1.1 版本在回放子图时能够精确恢复，而不会导致错误的回放行为。回归测试结果表明，修复后的版本在同步和异步场景中都能正常执行，并通过了相关测试场景。

5. 总结

我的修复方案主要是从语义完整性出发，通过精确回放子图 checkpoint 和正确清理 RESUME 状态，成功解决了 1.1.0 版本引发的回归问题。

LangGraph 新引入的 Replay 机制引起的 Regression 问题分析