一篇关于 Fibration Policy Optimization 的克制分析——为什么它值得关注,为什么你现在大概率不应该用它,以及它真正改变了什么
开篇:为什么 LLM RL 的 proximal objective 一直在"打补丁"?
PPO 是 2017 年的算法。到今天,它仍然是 LLM 对齐和 reasoning 训练中使用最广泛的 RL 优化器之一。不是因为它完美,而是因为它足够简单、足够粗暴、足够 work。
但围绕 PPO 的"修补"从未停过。GRPO 去掉了 value model。DAPO 搞了 decoupled clip 和 dynamic sampling。GSPO 把 ratio 从 token-level 升到 sequence-level。SAPO 用 soft gating 替代了 hard clipping。每隔几个月就冒出一个新的名字,解决的都是同一类问题:怎么在"允许 policy 更新"和"防止 policy 崩溃"之间找到更好的平衡。
一个自然的问题是:这些补丁有没有共同的根源?是不是 PPO 那个 token-level flat clipping 的基本框架本身就有结构性不足,而所有后续方法都是在这个不充分的框架内做局部修缮?
FiberPO(Fibration Policy Optimization)给出的回答是:对。问题不在于 clip 的 ε 设多大、是 token-level 还是 sequence-level、是 hard 还是 soft——问题在于现有方法只能在一个尺度上做 trust-region 控制,而 LLM 训练的数据天然是多层级的(token、trajectory、prompt group、domain)。FiberPO 声称它从 fiber bundle(纤维丛)的代数结构出发,提供了一种可以在任意层级上独立分配稳定性预算的组合式框架。
这听上去很漂亮。但漂亮的数学和有用的工程之间常常隔着一条鸿沟。FiberPO 的原论文(arXiv 2603.08239)是 2025 年 3 月才出现的纯理论工作,没有独立实验。它唯一的公开实验证据来自京东 JoyAI-LLM Flash 的技术报告(arXiv 2604.03044,2026 年 4 月),一个 48B 参数 MoE 模型的消融实验。没有独立团队复现,没有开源实现。
所以这篇文章要回答的核心问题是:FiberPO 提供的到底是"新的优化几何"——从数学结构层面改变了 policy gradient 的更新方式,还是"对现有 trust-region / ratio-gating 体系的一次更高层重写"——用更精致的代数语言重新组织了已有的思想?
我会全程区分"有公开证据支持的判断"和"合理推断"。FiberPO 太新了,诚实比全面更重要。
一、从 PPO 到 SAPO:LLM RL Proximal Objective 的演进逻辑
要理解 FiberPO 在解决什么问题,必须先搞清楚它之前那些方法各自修的是 proximal objective 的哪一个维度。这不是 RL 综述——我只追踪和 FiberPO 直接相关的那条线。
PPO:Token-level ratio clipping 的起点和局限
PPO 的核心思路是:用 importance ratio 来衡量新旧 policy 的偏离程度,然后 clip 这个 ratio 到 范围内,防止更新太大。
在 LLM 场景下,每个 token 是一个 "action",所以 clipping 是 per-token 的。这带来两个结构性问题:
- Clip 外 gradient = 0:当某个 token 的 ratio 超出 clip 范围,PPO 直接把梯度置零——等于放弃了这个 token 的学习信号。如果一整个 trajectory 都偏离了(所有 token 的 ratio 都被 clip),这个 trajectory 就"死了",不再对训练产生任何贡献。
- 不感知 trajectory-level 漂移:PPO 只看每个 token 的 ratio,不看整个 trajectory 的聚合偏离。一个 trajectory 整体偏离很大,但恰好每个 token 的 ratio 都在 clip 范围内——PPO 不会有任何反应。
加上它需要一个额外的 value model 来估计 advantage(在 LLM 场景下这意味着多一个和 policy model 同等规模的模型),PPO 的工程负担很重。
GRPO:去 value model 的简化
DeepSeek 团队在 DeepSeekMath 中提出 GRPO,核心思路是:不用 value model 估计 advantage,而是对同一个 prompt 采样多个 response,用 group 内的相对 reward 来估计 advantage。
这把"四模型架构"(policy、reference、reward、value)简化为"两模型架构"(policy、reference),显存和工程复杂度都大幅下降。但 GRPO 的 proximal 机制本质还是 PPO 式的 token-level ratio clipping——它只是换了 advantage 的估计方式,没有改变 gating 结构。
DAPO:把 GRPO 做对了
DAPO(ByteDance Seed + Tsinghua AIR, NeurIPS 2025)是"把 GRPO 做对"的典范。它引入了四个关键修改:
- Decoupled clip:clip 的上界和下界用不同的 ε,允许 positive advantage 有更大的探索空间
- Dynamic sampling:过滤掉全对或全错的 prompt group(它们 advantage 全为 0,不提供学习信号)
- Token-level PG loss:在长 CoT 场景下提供更细粒度的 credit assignment
- Overlong reward shaping:惩罚过长的 response
DAPO 在 AIME 2024 上用 Qwen2.5-32B 达到 50 分,是当时开源 RLVR 的 SOTA。但从 proximal objective 的角度看,它仍然是 token-level 的单尺度方案。
GSPO:升到 Sequence-level
GSPO(Qwen 团队 2025)做了一个概念跳跃:把 importance ratio 从 token-level 提到 sequence-level。不再看每个 token 的 ratio,而是看整个 response 的聚合 ratio。
这在 MoE 模型训练中特别有用——MoE 的路由在 token 级别不稳定,导致 token-level ratio 的方差巨大。升到 sequence-level 可以平滑这些噪声。
但 GSPO 的 hard clipping 有一个代价:如果一个 sequence 中有一个 token 严重 off-policy 导致 sequence-level ratio 超出 clip 范围,整个 sequence 的梯度被 kill——即使这个 sequence 中绝大多数 token 是 near-on-policy 的、有有价值的学习信号。
SAPO:Soft Gating 的折中
SAPO(Qwen 团队 2025.11,用于训练 Qwen3-VL)是目前最接近 FiberPO 思想的主流方法。它用 temperature-controlled soft gating 替代了 hard clipping——偏离越大的 token 被 down-weight 越多,但不是直接归零。它同时是 sequence-coherent(维护 sequence-level 一致性)和 token-adaptive(在 token 粒度做自适应调节)。
SAPO 可以说是 FiberPO 的一个"实用化近亲"——它解决了类似的问题(单尺度 hard clipping 太粗暴),但用了更简单的工程工具。
演进线上的模式
把这些方法放在一起看,你会发现一个清晰的模式:
每一步改进都在试图解决"在哪个尺度做 gating、用什么方式做 gating"的问题。 PPO 是 token + hard,GRPO 继承了 token + hard,DAPO 是 token + decoupled hard,GSPO 是 sequence + hard,SAPO 是 token-adaptive + sequence-coherent + soft。
但所有这些方法都有一个共同的局限:它们一次只能在一到两个尺度上工作。 没有一个方法能在 token、trajectory、prompt group、domain 四个尺度上同时做独立的 trust-region 控制。
这就是 FiberPO 的出发点。
图 1 PPO → GRPO → DAPO → GSPO → SAPO → FiberPO 演进路线图
二、FiberPO 的出发点:单尺度 Proximal 到底缺了什么?
Vanishing Theorem:Trust-Region 在 On-Policy 点处看不见路
FiberPO 论文的 Theorem 2.1 是整个框架的出发动机。它说的是:经典的 TV(Total Variation)trust-region radius 在 on-policy 点处为零。
直觉上这意味着什么?当你的当前 policy 和 reference policy 完全一致(完全 on-policy)时,TRPO 式的约束退化为一个点——trust region 的"半径"为零,它完全没法告诉你应该往哪个方向更新。你需要先做一步"随机探索"才能让 trust region 有非零的大小。
这不是说 TRPO 不 work(它当然 work,因为实践中你很快就会偏离 on-policy)。但它说明了经典 trust-region 在 on-policy 附近提供的方向信息非常弱。PPO 的 clipping 继承了这个问题:在 ratio ≈ 1 的区间内,clipping 是惰性的,不提供任何额外的结构信息。
Token-level Clipping 的结构性盲区
更具体地说,PPO/GRPO 的 token-level clipping 有两个诊断盲区:
盲区一:看不见 trajectory 级别的 drift。 假设你有一个 trajectory,里面有 200 个 token。每个 token 的 importance ratio 都在 [0.85, 1.15] 范围内——PPO 不会 clip 任何一个 token。但这 200 个 token 的 ratio 的乘积(trajectory-level ratio)可能已经偏到了 0.01 或 100——trajectory 整体已经严重偏离 reference policy。Token-level clipping 完全看不到这件事。
盲区二:clip 之后的"信息丢失"。 当一个 token 被 clip,PPO 的梯度直接变成零。这个 token 携带的信息(它为什么偏离?偏向了什么方向?应该被拉回来还是应该鼓励?)全部丢失了。如果一个 trajectory 中有很多 token 被 clip,整个 trajectory 的梯度信号变得极其稀疏。
GSPO 的另一个极端
GSPO 通过把 ratio 升到 sequence-level 解决了盲区一,但引入了一个新问题:一刀切。一个 sequence 中如果有 3 个 token 严重 off-policy(ratio = 5.0),但其余 197 个 token 都是 near-on-policy 的、携带有价值的学习信号——GSPO 会因为 sequence-level ratio 超出 clip 范围而 kill 掉所有 200 个 token 的梯度。
核心诊断
现有方法在 gating 尺度上是二选一(或者说,是各自选了不同的折中点):
- Token-level(PPO/GRPO/DAPO):细粒度但看不见全局
- Sequence-level(GSPO):看见全局但丢失细粒度
- Token-adaptive + sequence-coherent(SAPO):两者的 soft 折中,但不是真正的多尺度独立控制
FiberPO 的核心主张是:你不应该被迫在尺度之间做二选一。你应该能在每个尺度上独立设置 trust-region budget,并且这些 budget 之间是代数可组合的。
这到底是一个真需求还是一个过度工程,取决于你的训练场景有多异构。后面会详细讨论。
三、APC-Obj:Clipping 和 Trust-Region 是同一枚硬币的两面
APC-Obj(Aggregational Policy Censoring Objective)是 FiberPO 的理论地基。如果 FiberPO 有什么东西是"真的新"的,APC-Obj 是最强的候选。
它到底做了什么
APC-Obj 推导出了 sample-based TV-TRPO(Total Variation Trust-Region Policy Optimization)的第一个精确无约束重述。
说人话就是:TRPO 是一个带约束的优化问题("在 KL 或 TV 距离不超过 δ 的约束下,最大化期望 reward")。APC-Obj 证明了这个约束问题可以被精确地等价为一个无约束问题——它的形式恰好是一种"clipping surrogate"。
这意味着什么?PPO 的 clipping 不是 TRPO 的"粗糙近似"——它是 TRPO 在 TV 距离下的精确对偶形式。 之前学界普遍认为 PPO 是"受 TRPO 启发但做了大量简化的启发式方法"。APC-Obj 证明了这种简化在特定意义下是精确的(Theorem D.10)。
为什么这在工程上重要
这个等价性有两个直接的工程含义:
- 你不需要在 "用 clip 还是用 KL" 之间做 ad hoc 选择。 它们是同一个问题的两种表述。选择其中一个就等于隐式地选择了另一个。
- 它提供了一个精确的"锚点"来衡量每种方法到底在哪里引入了近似。 从 APC-Obj 出发,FiberPO 论文精确地推导了 PPO、GRPO、GSPO 分别对应 APC-Obj 的哪种 relaxation,以及每种 relaxation 丢失了什么。这比"PPO 大概是 TRPO 的近似"要有用得多——你知道了近似的精确位置和代价。
PPO、GRPO、GSPO 各自松弛了什么
论文的具体分析是:
- PPO 松弛了 trajectory-level 的聚合结构——它把 trajectory-level 的 trust-region 分散成了独立的 per-token clip,丢失了 trajectory 级别的耦合信息。
- GRPO 在 PPO 的基础上进一步松弛了 advantage 的估计(用 group relative 替代 value function)。
- GSPO 走了另一个方向——它松弛了 token-level 的细粒度,把一切都压到 sequence-level。
这些不是"哪个更好"的判断,而是"哪个在哪里做了近似"的精确标注。工程上你可以根据自己的场景选择可以接受的近似。
图 2 APC-Obj 作为理论锚点,PPO/GRPO/GSPO/FiberPO 作为不同松弛路径
四、Fiber Bundle Gating:多尺度门控到底在做什么
直觉:Base + Fiber 的分解
Fiber bundle 是微分几何和代数拓扑中的一个概念。但在 FiberPO 的语境下,你不需要懂拓扑学。它的核心思想可以用一个日常类比来理解:
想象你在管理一家连锁餐厅。你既需要控制每家分店(trajectory)的整体运营质量(不能让某家店整体崩溃),又需要控制每个厨师(token)的出品(不能让某个厨师出品严重偏差)。而且这两个层面的控制应该是独立的——一家店整体表现好不代表它的某个厨师不需要校正,一个厨师表现差也不代表整家店应该被关停。
FiberPO 的做法是:
- 计算 trajectory-level 的聚合 ratio:把一个 trajectory 中所有 token 的 importance ratio 聚合成一个标量(比如加权几何均值),作为 trajectory 级别的"偏离程度"。
- 对聚合 ratio 做 base-level gating:如果 trajectory 整体偏离太大,用一个 gate 函数把它拉回来。这个 gate 有自己的 ε 参数(trajectory-level trust-region budget)。
- 计算 token-level 的残差 ratio:每个 token 的 ratio 除以 trajectory 的聚合 ratio,得到"在 trajectory 已经被校正的前提下,这个 token 还有多少额外偏离"。
- 对残差 ratio 做 fiber-level gating:对每个 token 的残差偏离做独立的 gating。这个 gate 有自己的 δ 参数(token-level trust-region budget)。
最终每个 token 的 gated ratio = base gate × fiber gate × 原始 ratio 的一个函数。
这和 PPO 的 flat clipping 有什么本质区别
PPO 的做法是:直接对每个 token 的原始 ratio 做 clip。它不区分"trajectory 偏离了"和"这个 token 偏离了"这两件事。
FiberPO 区分了。这意味着:
- 一个 trajectory 整体偏离很大,但某个 token 相对于 trajectory 是"正常"的——FiberPO 会 gate trajectory(base gate 起作用),但不会额外 gate 这个 token(fiber gate 不起作用)。
- 一个 trajectory 整体正常,但某个 token 异常偏离——FiberPO 不会 gate trajectory,但会 gate 这个 token。
PPO 做不到这种区分。它只能看到"这个 token 的 ratio = 3.0,clip 它"——它不知道这 3.0 是因为 trajectory 整体漂移了还是因为这个 token 特别异常。
关键数学性质
FiberPO 论文为这种分解证明了三个关键性质:
First-order agreement(Theorem 4.5) :在 on-policy 点附近,FiberPO 的梯度和精确 RL objective 的梯度方向一致。直觉:只要你还在 policy 附近,FiberPO 不会给你一个"错的方向"。
Block-diagonal Jacobian:FiberPO objective 对不同 trajectory 的梯度是解耦的——一个 trajectory 的漂移不会通过 gradient coupling 影响另一个 trajectory 的更新。这在 PPO/GRPO 中不成立,因为它们的 clipping 是在全局 batch 上做的。
Restorative gradient:这可能是工程上最重要的性质。当一个 trajectory 偏离安全区间时:
- PPO/GRPO 的梯度 = 0(clip 了,放弃了)
- GSPO 均匀压制整个 sequence 的梯度
- FiberPO 的梯度有一个非零的"回推"分量——它主动把偏离的 trajectory 拉回安全区间
说白了,PPO 对偏离的 trajectory 的态度是"不管了",GSPO 是"压住",FiberPO 是"拉回来"。"拉回来"比"不管了"提供了更多信息量——它告诉优化器"应该往哪个方向纠正",而不只是"停止更新"。
图 3 FBG 的 base/fiber 分解示意图
五、FGH:从两层到任意层
FiberPO-Trajectory 是 FBG 最简单的实例化——只有两层(trajectory + token)。但 FiberPO 论文进一步提出了 Fibration Gating Hierarchy(FGH),把同一个 base/fiber 分解递归应用到任意多个层级。
FiberPO-Domain:四层结构
FiberPO-Domain 是 FGH 的一个具体实例,有四层:
Domain → Prompt Group → Trajectory → Token
每一层有独立的 gating 参数(trust-region budget),每一层的 gate 函数是同一个代数形式,只是作用的聚合粒度不同:
- Domain gate:控制整个训练域(比如"数学"vs"代码"vs"对话")的漂移
- Prompt group gate:控制一组相关 prompt 的漂移
- Trajectory gate:控制单个 response 的漂移
- Token gate:控制每个 token 的残差偏离
关键在于"组合性":这个四层结构不需要新的 gating 原语——同一个 base/fiber 分解自动叠加出来。 你想加第五层(比如"expert partition"用于 MoE 训练)?直接往层级结构里插一层就行。
为什么这在未来可能更有价值
现代 LLM 训练越来越异构:
- 多域训练:同时在数学、代码、对话、agent 等域上做 RL
- MoE 架构:不同 expert 处理不同 token,路由决策本身引入了额外的不稳定性
- 多轮 agentic 训练:agent 和环境交互多轮,credit assignment 需要在 turn、step、token 多个粒度上进行
在这些场景下,单尺度 trust-region 确实不够。一个"数学域的 prompt group 中某个 trajectory 的第 47 个 token"偏离了——你需要知道这个偏离应该在哪个层级被处理:是数学域整体漂移了?是这个 prompt group 特别难?是这个 trajectory 的 reward 异常?还是就这个 token 的 routing 出了问题?
FGH 提供了在每个层级做独立诊断和独立控制的框架。
当前限制
FiberPO-Domain 没有任何公开实验验证。 四层 gating 的超参空间(每层一个 ε)如何调、计算开销增加多少、在实际多域训练中收益有多大——全部是未知的。
这是一个理论上漂亮、工程上完全未证明的概念。本文对 FGH 的评价是:方向有道理,但在有公开实验之前,它更像一个研究方向指引,而不是一个可以落地的方案。
六、FiberPO 到底新在哪?——张力分析
这是整篇文章的核心判断部分。
正面论证:这是新的优化几何
- APC-Obj 的对偶性证明是非 trivial 的。之前没有人严格证明过 PPO clipping 是 TV-TRPO 的精确对偶。这不是"换一种说法",而是建立了一个新的理论等价性。
- Block-diagonal Jacobian 是一个结构性新属性。PPO/GRPO 的 objective 在 trajectory 间是耦合的——一个 trajectory 的 clip 行为会通过 batch normalization 等机制影响其他 trajectory 的梯度。FiberPO 通过代数分解消除了这种耦合。这不是调超参能做到的,而是 objective 结构本身的改变。
- Restorative gradient 是 PPO/GRPO/GSPO 都不具备的新属性。在 off-policy 区域,FiberPO 提供了一个有方向信息的梯度,而不是 PPO 的零梯度或 GSPO 的均匀压制。这是一个可观测的、有实际影响的差异——JoyAI 的实验诊断图直接展示了这一点。
- FGH 的组合性是之前方法不具备的。同一个代数构造自动推广到任意层级,不需要为每个新尺度设计新的 gating 机制。这种"一次设计、多次复用"的组合性是真正的结构优势。
反面论证:这是更高层重写
- 核心机制可以不用 fiber bundle 来描述。"trajectory-level gate + token-level gate 的分解"是一个直觉上很自然的想法——你可以用"两层 gating"来描述它,不需要引入纤维丛的概念。Fiber bundle 提供了更严格的数学保证,但工程实践中这些保证是否真的重要?
- SAPO 用更简单的工具解决了类似问题。SAPO 的 soft adaptive gating 是 token-adaptive + sequence-coherent 的——它也在两个尺度上做控制,但用了 temperature scaling 这种简单得多的工具。SAPO 已经被用在 Qwen3-VL 的生产训练中。
- GiGPO 在 agent 场景做了两层 credit assignment。GiGPO 的 episode-level + step-level 两层结构在概念上和 FiberPO 的 trajectory + token 两层结构很相似,但 GiGPO 不需要 fiber bundle 理论——它只是直觉地做了分层。
- 数学工具的重量级不等于工程价值的重量级。用 fiber bundle 理论"重述" multi-level gating,确实获得了更强的理论保证(first-order agreement、block-diagonal Jacobian)。但如果工程实践中"差不多对的 gating"就够用,这些保证的额外价值可能不大。
本文的判断
FiberPO 的贡献在以下方面是实质性的,不是纯粹的重写:
- APC-Obj 的对偶性证明
- Restorative gradient(可观测的新行为)
- 组合性框架(FGH 可以自动扩展到新层级)
但以下方面更像是理论美化:
- 用 fiber bundle 术语重新命名了"两层 gating"
- 论文的数学重量级(40+ 页证明)可能超出了核心创新的实际复杂度
类比:FiberPO 和 TRPO 的关系,很像牛顿力学和拉格朗日力学的关系。拉格朗日力学用更优雅的数学框架重述了牛顿力学,增加了广义坐标和变分原理——在很多问题上这只是"换了一种说法",但在某些特定问题(约束系统、对称性分析)上,拉格朗日形式提供了牛顿形式做不到的东西。FiberPO 在大多数场景可能只是"更理论化的 SAPO",但在多域异构训练等特定场景,它的代数组合性可能提供真正的额外价值。
七、FiberPO vs 方法族:一张对比表
| 维度 | PPO | GRPO | DAPO | GSPO | SAPO | FiberPO |
|---|---|---|---|---|---|---|
| Gating 尺度 | token | token | token (decoupled) | sequence | token-adaptive + seq-coherent | multi-level compositional |
| Off-policy 处理 | clip → 零梯度 | clip → 零梯度 | decoupled clip → 零梯度 | hard clip 整个 seq | soft suppression | restorative gradient |
| Value model | 需要 | 不需要 | 不需要 | 不需要 | 不需要 | 不需要 |
| 理论锚点 | TRPO 启发 | policy gradient | GRPO 改进 | trajectory-level | GSPO 改进 | APC-Obj (TV-TRPO 对偶) |
| Trajectory 间梯度耦合 | 有 | 有 | 有 | 有 | 有 | 无 (block-diagonal) |
| 多域扩展 | 无原生支持 | 无 | 无 | 无 | 无 | FGH 原生支持 |
| MoE 兼容 | 一般 | 一般 | 一般 | 好 | 好 | 理论上好(未验证) |
| 开源实现 | ✅ 大量 | ✅ 大量 | ✅ verl | ✅ | ✅ | ❌ 无 |
| 独立复现 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ 无 |
| 生产使用 | 广泛 | 广泛 | 广泛 | Qwen3 | Qwen3-VL | JoyAI-LLM Flash(唯一) |
最后一行是关键的:FiberPO 的工程成熟度远低于对比方法。 理论上的优势再漂亮,没有经过社区验证的工程实现,在实践决策中就不应该被过度权重。
八、JoyAI-LLM Flash 的有限实证——唯一的数据点
实验设置
JoyAI-LLM Flash(京东,2026 年 4 月)是一个 48B 参数的 MoE 模型(2.7B 激活参数)。它的技术报告中包含了 FiberPO 在 DAPO-Math-17k 数据集上 vs GRPO 和 GSPO 的消融实验。
实验条件值得注意:
- 起点是 SFT + DPO 后的 checkpoint——policy entropy 已经很低。论文自己说这是"a deliberately challenging scenario for RL optimization"。
- 单域:只有数学域。FiberPO-Domain 的多域能力没有被测试。
- 训练框架:verl
- 对比方法:GRPO 和 GSPO,无额外稳定器(无 curriculum、无 overlong reward shaping)
结果
- GRPO 在 step 60 后 collapse:training reward 开始下降,validation accuracy 停滞。
- GSPO 停滞:training reward 上升但 validation accuracy 不再改善。
- FiberPO 持续单调上升:training 和 validation 曲线都在后半段保持上升趋势。
训练诊断显示:
- FiberPO 的 policy entropy 下降更平稳
- importance ratio 的均值保持在更温和的范围
- gradient norm 更稳定
- fiber residual 和 token-level clip fraction 全程在"安全区间"内
该怎么看这个结果
积极信号:在这个特定设置下,FiberPO 确实展示了更好的训练稳定性。restorative gradient 在诊断图中有直接的可观测证据。
需要谨慎的地方:
- 只有一个实验设置。单域、单 checkpoint 起点、单数据集。
- 起点特殊。从高度对齐的 SFT+DPO checkpoint 开始 RL 是一个低 entropy 场景,这种场景放大了 GRPO 的不稳定性。在更"标准"的 RL 设置下(从 SFT 直接开始、policy entropy 较高),GRPO 可能不会 collapse。
- 没有和 DAPO 对比。DAPO 的 decoupled clip + dynamic sampling 专门为解决训练稳定性设计,是更公平的基线。
- 没有和 SAPO 对比。SAPO 的 soft gating 解决了类似问题。
- 只有一个团队的结果。没有独立复现。
本文判断:这是一个值得关注的积极信号,但不足以得出 "FiberPO 普遍优于 GRPO/GSPO" 的结论。需要更多的独立实验、更多的 baseline 对比、更多的训练设置才能做出可靠判断。
九、研发决策场景 + 方法选型框架
场景:一个做 reasoning model post-training 的团队
假设你的团队有以下情况:
- 已经有一个 GRPO(或 GRPO + DAPO tricks)的 pipeline
- 正在做数学 reasoning 模型的 post-training
- 训练有时不稳定(偶尔 collapse、reward hacking)
- 想提高 token efficiency(用更少的 step 达到相同性能)
你该不该看 FiberPO?
方法选型决策树
Q1:你的训练不稳定的根源是什么?
- 如果是 reward model 质量差 → FiberPO 帮不了,先修 reward
- 如果是 entropy collapse → 先试 DAPO 的 dynamic sampling + entropy bonus
- 如果是 importance ratio 爆炸 / trajectory drift → FiberPO 的 multi-level gating 可能有用,但先试 GSPO 或 SAPO
Q2:你的训练是单域还是多域?
- 单域(纯数学 / 纯代码)→ FiberPO-Trajectory(两层)可能有边际收益,但 SAPO 更成熟
- 多域(数学 + 代码 + 对话 + agent)→ FiberPO-Domain(四层)是唯一有多层级原生支持的框架。但它完全没有公开验证
Q3:你的团队有什么能力?
- 有强 RL 理论和系统能力 → 可以考虑研究和实现 FiberPO
- 主要是应用导向 → 先把 DAPO tricks 用好,等 FiberPO 有开源实现和社区验证再看
Q4:你是研究导向还是产品导向?
- 研究导向 → FiberPO 的 APC-Obj 和 FGH 是有价值的研究方向,值得深入
- 产品导向 → 现阶段不建议投入。等有更多实证再说
总结
| 你的情况 | 建议 |
|---|---|
| 已有 GRPO pipeline,偶尔不稳定 | 先上 DAPO tricks(decoupled clip、dynamic sampling) |
| GRPO + DAPO 仍然不够稳 | 考虑 GSPO 或 SAPO |
| 需要多域/多层级训练 | 关注 FiberPO 方向,但等开源和复现 |
| 做 RL 理论研究 | 深入看 APC-Obj 和 FGH |
| 做 agentic RL | GiGPO 是更成熟的两层方案 |
| 算力有限 | 不碰 FiberPO,聚焦 GRPO+DAPO |
十、真实踩坑清单
以下是基于 FiberPO 论文描述、JoyAI 实验、以及对相关方法工程经验的合理推断。部分条目明确标注为"推断"。
坑 1:不理解 APC-Obj 就直接实现 FBG
为什么会踩:FBG 的 gating 形式看起来就是"两层 clipping",容易跳过理论直接写代码。症状:实现出来的 objective 和论文的梯度性质不一致,restorative gradient 消失。根因:FBG 的分解依赖于 APC-Obj 的特定形式作为起点,不是任意 surrogate + 两层 clip。缓解:从 APC-Obj 的 δ-relaxed 形式开始推导,确保分解步骤和论文一致。
坑 2:Trajectory 聚合方式选错
为什么会踩:论文提到了多种聚合方式(加权几何均值等),选哪种影响很大。症状:base gate 过于敏感或过于迟钝。根因:不同聚合方式对 outlier token ratio 的处理不同。缓解:(推断)从论文推荐的默认形式开始,不要自行发明聚合方式。
坑 3:两层 ε/δ 超参调不好
为什么会踩:FiberPO 比 PPO 多了一个维度的超参(PPO 只有一个 ,FiberPO 有 和 )。症状: 太紧导致所有 trajectory 被 gate,训练信号消失; 太紧导致退化为 aggressive per-token clipping。根因:两层超参的交互效应比单层更复杂。缓解:(推断)先固定 在和 PPO 类似的值,只调 。
坑 4:从 off-policy 数据上误用 FiberPO
为什么会踩:FiberPO 的理论保证(first-order agreement)是在 near-on-policy 条件下的。症状:用 replay buffer 中的旧数据训练时,FiberPO 的表现可能不如预期。根因:off-policy 情况下 FBG 分解的假设条件不再成立。缓解:确保 rollout 足够新鲜,或者只在 on-policy 设置下使用。
坑 5:期望 FiberPO 自动解决 reward hacking
为什么会踩:FiberPO 的稳定性改进可能被误解为"更好的 RL 训练"的全面方案。症状:训练很稳但学到了 hack reward 的策略。根因:FiberPO 解决的是 proximal objective 的稳定性,不是 reward design 的问题。缓解:reward 质量仍然是独立问题。
坑 6:在很短的 response(< 50 tokens)上使用 FiberPO
为什么会踩:短 response 场景下 trajectory-level 和 token-level 的区分不明显。症状:FiberPO 退化为类似 PPO 的行为,增加了复杂度但没有收益。根因:trajectory 聚合对少量 token 的统计意义有限。缓解:(推断)短 response 场景用 GRPO + DAPO tricks 更合适。
坑 7:不监控 fiber residual 诊断指标
为什么会踩:FiberPO 提供了额外的诊断指标(fiber residual, token-level clip fraction),但如果不看就浪费了。症状:不知道稳定性问题出在哪一层。根因:FiberPO 的多层结构提供了多层级诊断的能力,但需要主动 log 和监控。缓解:训练开始就把 base gate 激活率、fiber residual、per-level clip fraction 都 log 下来。
坑 8:在 MoE 模型上不处理 routing 导致的 ratio spike(推断)
为什么会踩:MoE 的 routing replay 问题在 FiberPO 中可能以不同形式出现。症状:某些 token 的 importance ratio 因为 routing 变化而极端偏离。根因:FiberPO 的 fiber-level gate 应该能处理单 token 异常,但 base-level gate 可能被这些 spike 影响。缓解:(推断)在 MoE 场景下可能需要在 ratio 计算中补偿 routing 变化。
坑 9:FGH 多层超参调参空间爆炸
为什么会踩:使用 FiberPO-Domain 四层结构,每层一个 ε。症状:调参成本远超 GRPO/DAPO。根因:四个超参的联合影响难以人工直觉。缓解:(推断)从两层开始,逐步加层。或者用 adaptive scheduling 自动调节。
坑 10:假设 FiberPO 可以直接 drop-in 替换 GRPO
为什么会踩:FiberPO 看起来只是"更好的 objective"。症状:切换后训练行为完全不同,之前调好的超参全部失效。根因:FiberPO 的梯度结构(restorative gradient)和 GRPO 的梯度结构(zero gradient at clip)根本不同,这影响了 learning rate、batch size、gradient accumulation 的最优设置。缓解:从头调参,不要复用 GRPO 的超参。
十一、前沿与未解问题
多层级 gating 会不会成为一个新方向?
如果把 FiberPO 的 FGH 和其他方向放在一起看——GiGPO 的两层 credit assignment、SAPO 的 token-adaptive + sequence-coherent 设计——你会发现一个共同趋势:LLM RL 正在从"单尺度 proximal"走向"多尺度 proximal"。 不同方法用不同的技术路线(fiber bundle、soft gating、hierarchical grouping),但方向一致。
这个方向在以下场景下会变得更重要:
- Agentic RL:agent 的 trajectory 有 turn、step、action、token 多个层级
- 多域训练:同时在多个 task domain 上做 RL
- MoE 架构:expert routing 引入了额外的不稳定性层级
- 多模态:不同模态的 token 有不同的 credit assignment 需求
和具体方向的结合前景
- MoE + FiberPO:FiberPO 的 base gate 可以用来控制不同 expert partition 的漂移。理论上很匹配,但需要处理 routing replay 问题。
- Agentic RL + FGH:多轮工具调用场景下,FGH 可以在 turn → step → token 上做分层控制。比 GiGPO 更有理论保证。
- Domain-conditioned RL + FiberPO-Domain:最直接的应用场景,但缺乏实验验证。
未解问题
- FiberPO 的实现复杂度到底有多高? 没有开源实现,无法评估。
- Four-level gating 的超参如何高效调节? 可能需要 auto-tuning 或 adaptive scheduling。
- FiberPO 在 off-policy 设置下是否可用? 当前理论保证仅限 near-on-policy。
- Restorative gradient 在什么情况下可能有害? 如果 trajectory 的偏离是"有意义的探索"而不是"漂移",restorative gradient 会阻碍探索。
- FiberPO 的 compute overhead 是多少? 额外的聚合计算和多层 gating 的成本不明。
结论:理论启发还是新一代 objective 的起点?
FiberPO 值不值得持续关注?
值得关注,但不值得现在投入生产。
APC-Obj 的对偶性证明是一个真实的理论贡献——它改变了我们对"clipping 到底是什么"的理解。Restorative gradient 是一个可观测的新行为,在 JoyAI 的实验中展示了真实的稳定性改善。FGH 的组合性提供了一种面向未来的设计思路。
但它太年轻了。一篇理论论文 + 一个团队的一组实验,不足以支撑任何"FiberPO 优于 GRPO/DAPO/SAPO"的通用结论。
哪类读者应该重点看?
- 做 RL 理论研究的人:APC-Obj 的 clipping-TRPO 对偶性是一个值得深入的方向,可能催生更简洁的 policy optimization objective
- 做多域/agentic RL 的人:FGH 的多层级控制思路值得了解,即使不直接用 FiberPO
- 框架/系统开发者:如果你在做 verl/OpenRLHF/TRL 级别的 RL 框架,提前了解 multi-level gating 的需求可以指导接口设计
哪类团队现在不该碰?
- 没有 RL 理论 background 的应用团队:GRPO + DAPO tricks 够用且成熟
- 算力有限的团队:FiberPO 的超参空间比 GRPO 大,调参成本更高
- 追求快速产品化的团队:没有开源实现、没有社区最佳实践、debug 全靠自己
这个方向最容易被误解的点
- "Fiber bundle" 听起来像是在炫技。 部分是——核心机制可以不用这个术语来描述。但 APC-Obj 的对偶性和 FGH 的组合性确实需要代数工具,不是纯粹的装饰。
- "FiberPO 比 GRPO 更好"是一个远未被证明的论断。 它在一个特定设置下表现更好,但那个设置(低 entropy 起点 + 单域 + 无额外稳定器)本身就对 GRPO 不利。
- FiberPO 解决的不是"LLM RL 的所有问题",而只是"proximal objective 的结构性设计"。 Reward 质量、exploration 策略、data sampling、训练基础设施——这些问题 FiberPO 一个都不碰。
最终判断
FiberPO 更可能是 "理论启发 + 新一代 objective 的起点"的结合体,而不是非此即彼。
它的 APC-Obj 会像 TRPO 影响 PPO 那样,影响下一代 policy optimization 方法的设计——提供一个更严格的理论锚点。但它的 FBG/FGH 在工程上最终可能以更简洁的形式落地(类似 TRPO 的 KL 约束最终简化为 PPO 的 clipping)。
如果你做 LLM RL,现在最值得投入精力的是把 GRPO + DAPO tricks 做扎实。但如果你想理解"policy optimization 的下一步方向在哪",FiberPO 论文值得仔细读——不是为了用它,而是为了理解它揭示的问题结构。
参考资料
FiberPO 一手资料
- Fibration Policy Optimization, arXiv 2603.08239, 2025.03
- JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency, arXiv 2604.03044, 2026.04
- JoyAI-LLM-Flash model: huggingface.co/jdopensource/JoyAI-LLM-Flash
PPO / TRPO 基础
- Schulman et al., "Proximal Policy Optimization Algorithms," arXiv 1707.06347, 2017
- Schulman et al., "Trust Region Policy Optimization," ICML 2015
GRPO 及其变体
- Shao et al., "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models," arXiv 2402.03300, 2024
- Guo et al., "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning," arXiv 2501.12948, 2025
DAPO
- Yu et al., "DAPO: An Open-Source LLM Reinforcement Learning System at Scale," arXiv 2503.14476, 2025 (NeurIPS 2025)
GSPO / SAPO
- Zheng et al., "Group Sequence Policy Optimization," arXiv 2507.18071, 2025
- Gao et al., "Soft Adaptive Policy Optimization," arXiv 2511.20347, 2025
多尺度 / 层级 RL
- Feng et al., "Group-in-Group Policy Optimization for LLM Agent Training (GiGPO)," arXiv 2505.10978, 2025
- "TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning," arXiv 2508.02833, 2025
其他相关
- R2VPO: "Ratio-Variance Regularized Policy Optimization," arXiv 2601.03320, 2026
- POAD: "Reinforcing LLM Agents via Policy Optimization with Action Decomposition," 2024
关于文中提到的 QUATRO 和 BandPO:这两个方法名称在截至 2026 年 4 月的公开 arXiv 和主要学术数据库中未能查证到对应的论文。它们可能来自未公开的 preprint 或内部研究,本文未将其纳入分析以避免信息不准确。如读者有相关论文链接,欢迎补充。