FiberPO：新的优化几何，还是给 Trust-Region 套上的一层更精致的代数外壳？开篇：为什么 LLM RL

一篇关于 Fibration Policy Optimization 的克制分析——为什么它值得关注，为什么你现在大概率不应该用它，以及它真正改变了什么

开篇：为什么 LLM RL 的 proximal objective 一直在"打补丁"？

PPO 是 2017 年的算法。到今天，它仍然是 LLM 对齐和 reasoning 训练中使用最广泛的 RL 优化器之一。不是因为它完美，而是因为它足够简单、足够粗暴、足够 work。

但围绕 PPO 的"修补"从未停过。GRPO 去掉了 value model。DAPO 搞了 decoupled clip 和 dynamic sampling。GSPO 把 ratio 从 token-level 升到 sequence-level。SAPO 用 soft gating 替代了 hard clipping。每隔几个月就冒出一个新的名字，解决的都是同一类问题：怎么在"允许 policy 更新"和"防止 policy 崩溃"之间找到更好的平衡。

一个自然的问题是：这些补丁有没有共同的根源？是不是 PPO 那个 token-level flat clipping 的基本框架本身就有结构性不足，而所有后续方法都是在这个不充分的框架内做局部修缮？

FiberPO（Fibration Policy Optimization）给出的回答是：对。问题不在于 clip 的 ε 设多大、是 token-level 还是 sequence-level、是 hard 还是 soft——问题在于现有方法只能在一个尺度上做 trust-region 控制，而 LLM 训练的数据天然是多层级的（token、trajectory、prompt group、domain）。FiberPO 声称它从 fiber bundle（纤维丛）的代数结构出发，提供了一种可以在任意层级上独立分配稳定性预算的组合式框架。

这听上去很漂亮。但漂亮的数学和有用的工程之间常常隔着一条鸿沟。FiberPO 的原论文（arXiv 2603.08239）是 2025 年 3 月才出现的纯理论工作，没有独立实验。它唯一的公开实验证据来自京东 JoyAI-LLM Flash 的技术报告（arXiv 2604.03044，2026 年 4 月），一个 48B 参数 MoE 模型的消融实验。没有独立团队复现，没有开源实现。

所以这篇文章要回答的核心问题是：FiberPO 提供的到底是"新的优化几何"——从数学结构层面改变了 policy gradient 的更新方式，还是"对现有 trust-region / ratio-gating 体系的一次更高层重写"——用更精致的代数语言重新组织了已有的思想？

我会全程区分"有公开证据支持的判断"和"合理推断"。FiberPO 太新了，诚实比全面更重要。

一、从 PPO 到 SAPO：LLM RL Proximal Objective 的演进逻辑

要理解 FiberPO 在解决什么问题，必须先搞清楚它之前那些方法各自修的是 proximal objective 的哪一个维度。这不是 RL 综述——我只追踪和 FiberPO 直接相关的那条线。

PPO：Token-level ratio clipping 的起点和局限

PPO 的核心思路是：用 importance ratio $r_t = π_θ(a_t|s_t) / π_old(a_t|s_t)$ 来衡量新旧 policy 的偏离程度，然后 clip 这个 ratio 到 $[1-ε, 1+ε]$ 范围内，防止更新太大。

在 LLM 场景下，每个 token 是一个 "action"，所以 clipping 是 per-token 的。这带来两个结构性问题：

Clip 外 gradient = 0：当某个 token 的 ratio 超出 clip 范围，PPO 直接把梯度置零——等于放弃了这个 token 的学习信号。如果一整个 trajectory 都偏离了（所有 token 的 ratio 都被 clip），这个 trajectory 就"死了"，不再对训练产生任何贡献。
不感知 trajectory-level 漂移：PPO 只看每个 token 的 ratio，不看整个 trajectory 的聚合偏离。一个 trajectory 整体偏离很大，但恰好每个 token 的 ratio 都在 clip 范围内——PPO 不会有任何反应。

加上它需要一个额外的 value model 来估计 advantage（在 LLM 场景下这意味着多一个和 policy model 同等规模的模型），PPO 的工程负担很重。

GRPO：去 value model 的简化

DeepSeek 团队在 DeepSeekMath 中提出 GRPO，核心思路是：不用 value model 估计 advantage，而是对同一个 prompt 采样多个 response，用 group 内的相对 reward 来估计 advantage。

这把"四模型架构"（policy、reference、reward、value）简化为"两模型架构"（policy、reference），显存和工程复杂度都大幅下降。但 GRPO 的 proximal 机制本质还是 PPO 式的 token-level ratio clipping——它只是换了 advantage 的估计方式，没有改变 gating 结构。

DAPO：把 GRPO 做对了

DAPO（ByteDance Seed + Tsinghua AIR, NeurIPS 2025）是"把 GRPO 做对"的典范。它引入了四个关键修改：

Decoupled clip：clip 的上界和下界用不同的 ε，允许 positive advantage 有更大的探索空间
Dynamic sampling：过滤掉全对或全错的 prompt group（它们 advantage 全为 0，不提供学习信号）
Token-level PG loss：在长 CoT 场景下提供更细粒度的 credit assignment
Overlong reward shaping：惩罚过长的 response

DAPO 在 AIME 2024 上用 Qwen2.5-32B 达到 50 分，是当时开源 RLVR 的 SOTA。但从 proximal objective 的角度看，它仍然是 token-level 的单尺度方案。

GSPO：升到 Sequence-level

GSPO（Qwen 团队 2025）做了一个概念跳跃：把 importance ratio 从 token-level 提到 sequence-level。不再看每个 token 的 ratio，而是看整个 response 的聚合 ratio。

这在 MoE 模型训练中特别有用——MoE 的路由在 token 级别不稳定，导致 token-level ratio 的方差巨大。升到 sequence-level 可以平滑这些噪声。

但 GSPO 的 hard clipping 有一个代价：如果一个 sequence 中有一个 token 严重 off-policy 导致 sequence-level ratio 超出 clip 范围，整个 sequence 的梯度被 kill——即使这个 sequence 中绝大多数 token 是 near-on-policy 的、有有价值的学习信号。

SAPO：Soft Gating 的折中

SAPO（Qwen 团队 2025.11，用于训练 Qwen3-VL）是目前最接近 FiberPO 思想的主流方法。它用 temperature-controlled soft gating 替代了 hard clipping——偏离越大的 token 被 down-weight 越多，但不是直接归零。它同时是 sequence-coherent（维护 sequence-level 一致性）和 token-adaptive（在 token 粒度做自适应调节）。

SAPO 可以说是 FiberPO 的一个"实用化近亲"——它解决了类似的问题（单尺度 hard clipping 太粗暴），但用了更简单的工程工具。

演进线上的模式

把这些方法放在一起看，你会发现一个清晰的模式：

每一步改进都在试图解决"在哪个尺度做 gating、用什么方式做 gating"的问题。 PPO 是 token + hard，GRPO 继承了 token + hard，DAPO 是 token + decoupled hard，GSPO 是 sequence + hard，SAPO 是 token-adaptive + sequence-coherent + soft。

但所有这些方法都有一个共同的局限：它们一次只能在一到两个尺度上工作。 没有一个方法能在 token、trajectory、prompt group、domain 四个尺度上同时做独立的 trust-region 控制。

这就是 FiberPO 的出发点。

图 1 PPO → GRPO → DAPO → GSPO → SAPO → FiberPO 演进路线图

二、FiberPO 的出发点：单尺度 Proximal 到底缺了什么？

Vanishing Theorem：Trust-Region 在 On-Policy 点处看不见路

FiberPO 论文的 Theorem 2.1 是整个框架的出发动机。它说的是：经典的 TV（Total Variation）trust-region radius 在 on-policy 点处为零。

直觉上这意味着什么？当你的当前 policy 和 reference policy 完全一致（完全 on-policy）时，TRPO 式的约束退化为一个点——trust region 的"半径"为零，它完全没法告诉你应该往哪个方向更新。你需要先做一步"随机探索"才能让 trust region 有非零的大小。

这不是说 TRPO 不 work（它当然 work，因为实践中你很快就会偏离 on-policy）。但它说明了经典 trust-region 在 on-policy 附近提供的方向信息非常弱。PPO 的 clipping 继承了这个问题：在 ratio ≈ 1 的区间内，clipping 是惰性的，不提供任何额外的结构信息。

Token-level Clipping 的结构性盲区

更具体地说，PPO/GRPO 的 token-level clipping 有两个诊断盲区：

盲区一：看不见 trajectory 级别的 drift。 假设你有一个 trajectory，里面有 200 个 token。每个 token 的 importance ratio 都在 [0.85, 1.15] 范围内——PPO 不会 clip 任何一个 token。但这 200 个 token 的 ratio 的乘积（trajectory-level ratio）可能已经偏到了 0.01 或 100——trajectory 整体已经严重偏离 reference policy。Token-level clipping 完全看不到这件事。

盲区二：clip 之后的"信息丢失"。 当一个 token 被 clip，PPO 的梯度直接变成零。这个 token 携带的信息（它为什么偏离？偏向了什么方向？应该被拉回来还是应该鼓励？）全部丢失了。如果一个 trajectory 中有很多 token 被 clip，整个 trajectory 的梯度信号变得极其稀疏。

GSPO 的另一个极端

GSPO 通过把 ratio 升到 sequence-level 解决了盲区一，但引入了一个新问题：一刀切。一个 sequence 中如果有 3 个 token 严重 off-policy（ratio = 5.0），但其余 197 个 token 都是 near-on-policy 的、携带有价值的学习信号——GSPO 会因为 sequence-level ratio 超出 clip 范围而 kill 掉所有 200 个 token 的梯度。

核心诊断

现有方法在 gating 尺度上是二选一（或者说，是各自选了不同的折中点）：

Token-level（PPO/GRPO/DAPO）：细粒度但看不见全局
Sequence-level（GSPO）：看见全局但丢失细粒度
Token-adaptive + sequence-coherent（SAPO）：两者的 soft 折中，但不是真正的多尺度独立控制

FiberPO 的核心主张是：你不应该被迫在尺度之间做二选一。你应该能在每个尺度上独立设置 trust-region budget，并且这些 budget 之间是代数可组合的。

这到底是一个真需求还是一个过度工程，取决于你的训练场景有多异构。后面会详细讨论。

三、APC-Obj：Clipping 和 Trust-Region 是同一枚硬币的两面

APC-Obj（Aggregational Policy Censoring Objective）是 FiberPO 的理论地基。如果 FiberPO 有什么东西是"真的新"的，APC-Obj 是最强的候选。

它到底做了什么

APC-Obj 推导出了 sample-based TV-TRPO（Total Variation Trust-Region Policy Optimization）的第一个精确无约束重述。

说人话就是：TRPO 是一个带约束的优化问题（"在 KL 或 TV 距离不超过 δ 的约束下，最大化期望 reward"）。APC-Obj 证明了这个约束问题可以被精确地等价为一个无约束问题——它的形式恰好是一种"clipping surrogate"。

这意味着什么？PPO 的 clipping 不是 TRPO 的"粗糙近似"——它是 TRPO 在 TV 距离下的精确对偶形式。 之前学界普遍认为 PPO 是"受 TRPO 启发但做了大量简化的启发式方法"。APC-Obj 证明了这种简化在特定意义下是精确的（Theorem D.10）。

为什么这在工程上重要

这个等价性有两个直接的工程含义：

你不需要在 "用 clip 还是用 KL" 之间做 ad hoc 选择。 它们是同一个问题的两种表述。选择其中一个就等于隐式地选择了另一个。
它提供了一个精确的"锚点"来衡量每种方法到底在哪里引入了近似。 从 APC-Obj 出发，FiberPO 论文精确地推导了 PPO、GRPO、GSPO 分别对应 APC-Obj 的哪种 relaxation，以及每种 relaxation 丢失了什么。这比"PPO 大概是 TRPO 的近似"要有用得多——你知道了近似的精确位置和代价。

PPO、GRPO、GSPO 各自松弛了什么

论文的具体分析是：

PPO 松弛了 trajectory-level 的聚合结构——它把 trajectory-level 的 trust-region 分散成了独立的 per-token clip，丢失了 trajectory 级别的耦合信息。
GRPO 在 PPO 的基础上进一步松弛了 advantage 的估计（用 group relative 替代 value function）。
GSPO 走了另一个方向——它松弛了 token-level 的细粒度，把一切都压到 sequence-level。

这些不是"哪个更好"的判断，而是"哪个在哪里做了近似"的精确标注。工程上你可以根据自己的场景选择可以接受的近似。

图 2 APC-Obj 作为理论锚点，PPO/GRPO/GSPO/FiberPO 作为不同松弛路径

四、Fiber Bundle Gating：多尺度门控到底在做什么

直觉：Base + Fiber 的分解

Fiber bundle 是微分几何和代数拓扑中的一个概念。但在 FiberPO 的语境下，你不需要懂拓扑学。它的核心思想可以用一个日常类比来理解：

想象你在管理一家连锁餐厅。你既需要控制每家分店（trajectory）的整体运营质量（不能让某家店整体崩溃），又需要控制每个厨师（token）的出品（不能让某个厨师出品严重偏差）。而且这两个层面的控制应该是独立的——一家店整体表现好不代表它的某个厨师不需要校正，一个厨师表现差也不代表整家店应该被关停。

FiberPO 的做法是：

计算 trajectory-level 的聚合 ratio：把一个 trajectory 中所有 token 的 importance ratio 聚合成一个标量（比如加权几何均值），作为 trajectory 级别的"偏离程度"。
对聚合 ratio 做 base-level gating：如果 trajectory 整体偏离太大，用一个 gate 函数把它拉回来。这个 gate 有自己的 ε 参数（trajectory-level trust-region budget）。
计算 token-level 的残差 ratio：每个 token 的 ratio 除以 trajectory 的聚合 ratio，得到"在 trajectory 已经被校正的前提下，这个 token 还有多少额外偏离"。
对残差 ratio 做 fiber-level gating：对每个 token 的残差偏离做独立的 gating。这个 gate 有自己的 δ 参数（token-level trust-region budget）。

最终每个 token 的 gated ratio = base gate × fiber gate × 原始 ratio 的一个函数。

这和 PPO 的 flat clipping 有什么本质区别

PPO 的做法是：直接对每个 token 的原始 ratio 做 clip。它不区分"trajectory 偏离了"和"这个 token 偏离了"这两件事。

FiberPO 区分了。这意味着：

一个 trajectory 整体偏离很大，但某个 token 相对于 trajectory 是"正常"的——FiberPO 会 gate trajectory（base gate 起作用），但不会额外 gate 这个 token（fiber gate 不起作用）。
一个 trajectory 整体正常，但某个 token 异常偏离——FiberPO 不会 gate trajectory，但会 gate 这个 token。

PPO 做不到这种区分。它只能看到"这个 token 的 ratio = 3.0，clip 它"——它不知道这 3.0 是因为 trajectory 整体漂移了还是因为这个 token 特别异常。

关键数学性质

FiberPO 论文为这种分解证明了三个关键性质：

First-order agreement（Theorem 4.5） ：在 on-policy 点附近，FiberPO 的梯度和精确 RL objective 的梯度方向一致。直觉：只要你还在 policy 附近，FiberPO 不会给你一个"错的方向"。

Block-diagonal Jacobian：FiberPO objective 对不同 trajectory 的梯度是解耦的——一个 trajectory 的漂移不会通过 gradient coupling 影响另一个 trajectory 的更新。这在 PPO/GRPO 中不成立，因为它们的 clipping 是在全局 batch 上做的。

Restorative gradient：这可能是工程上最重要的性质。当一个 trajectory 偏离安全区间时：

PPO/GRPO 的梯度 = 0（clip 了，放弃了）
GSPO 均匀压制整个 sequence 的梯度
FiberPO 的梯度有一个非零的"回推"分量——它主动把偏离的 trajectory 拉回安全区间

说白了，PPO 对偏离的 trajectory 的态度是"不管了"，GSPO 是"压住"，FiberPO 是"拉回来"。"拉回来"比"不管了"提供了更多信息量——它告诉优化器"应该往哪个方向纠正"，而不只是"停止更新"。

图 3 FBG 的 base/fiber 分解示意图

五、FGH：从两层到任意层

FiberPO-Trajectory 是 FBG 最简单的实例化——只有两层（trajectory + token）。但 FiberPO 论文进一步提出了 Fibration Gating Hierarchy（FGH），把同一个 base/fiber 分解递归应用到任意多个层级。

FiberPO-Domain：四层结构

FiberPO-Domain 是 FGH 的一个具体实例，有四层：

Domain → Prompt Group → Trajectory → Token

每一层有独立的 gating 参数（trust-region budget），每一层的 gate 函数是同一个代数形式，只是作用的聚合粒度不同：

Domain gate：控制整个训练域（比如"数学"vs"代码"vs"对话"）的漂移
Prompt group gate：控制一组相关 prompt 的漂移
Trajectory gate：控制单个 response 的漂移
Token gate：控制每个 token 的残差偏离

关键在于"组合性"：这个四层结构不需要新的 gating 原语——同一个 base/fiber 分解自动叠加出来。 你想加第五层（比如"expert partition"用于 MoE 训练）？直接往层级结构里插一层就行。

为什么这在未来可能更有价值

现代 LLM 训练越来越异构：

多域训练：同时在数学、代码、对话、agent 等域上做 RL
MoE 架构：不同 expert 处理不同 token，路由决策本身引入了额外的不稳定性
多轮 agentic 训练：agent 和环境交互多轮，credit assignment 需要在 turn、step、token 多个粒度上进行

在这些场景下，单尺度 trust-region 确实不够。一个"数学域的 prompt group 中某个 trajectory 的第 47 个 token"偏离了——你需要知道这个偏离应该在哪个层级被处理：是数学域整体漂移了？是这个 prompt group 特别难？是这个 trajectory 的 reward 异常？还是就这个 token 的 routing 出了问题？

FGH 提供了在每个层级做独立诊断和独立控制的框架。

当前限制

FiberPO-Domain 没有任何公开实验验证。 四层 gating 的超参空间（每层一个 ε）如何调、计算开销增加多少、在实际多域训练中收益有多大——全部是未知的。

这是一个理论上漂亮、工程上完全未证明的概念。本文对 FGH 的评价是：方向有道理，但在有公开实验之前，它更像一个研究方向指引，而不是一个可以落地的方案。

六、FiberPO 到底新在哪？——张力分析

这是整篇文章的核心判断部分。

正面论证：这是新的优化几何

APC-Obj 的对偶性证明是非 trivial 的。之前没有人严格证明过 PPO clipping 是 TV-TRPO 的精确对偶。这不是"换一种说法"，而是建立了一个新的理论等价性。
Block-diagonal Jacobian 是一个结构性新属性。PPO/GRPO 的 objective 在 trajectory 间是耦合的——一个 trajectory 的 clip 行为会通过 batch normalization 等机制影响其他 trajectory 的梯度。FiberPO 通过代数分解消除了这种耦合。这不是调超参能做到的，而是 objective 结构本身的改变。
Restorative gradient 是 PPO/GRPO/GSPO 都不具备的新属性。在 off-policy 区域，FiberPO 提供了一个有方向信息的梯度，而不是 PPO 的零梯度或 GSPO 的均匀压制。这是一个可观测的、有实际影响的差异——JoyAI 的实验诊断图直接展示了这一点。
FGH 的组合性是之前方法不具备的。同一个代数构造自动推广到任意层级，不需要为每个新尺度设计新的 gating 机制。这种"一次设计、多次复用"的组合性是真正的结构优势。

反面论证：这是更高层重写

核心机制可以不用 fiber bundle 来描述。"trajectory-level gate + token-level gate 的分解"是一个直觉上很自然的想法——你可以用"两层 gating"来描述它，不需要引入纤维丛的概念。Fiber bundle 提供了更严格的数学保证，但工程实践中这些保证是否真的重要？
SAPO 用更简单的工具解决了类似问题。SAPO 的 soft adaptive gating 是 token-adaptive + sequence-coherent 的——它也在两个尺度上做控制，但用了 temperature scaling 这种简单得多的工具。SAPO 已经被用在 Qwen3-VL 的生产训练中。
GiGPO 在 agent 场景做了两层 credit assignment。GiGPO 的 episode-level + step-level 两层结构在概念上和 FiberPO 的 trajectory + token 两层结构很相似，但 GiGPO 不需要 fiber bundle 理论——它只是直觉地做了分层。
数学工具的重量级不等于工程价值的重量级。用 fiber bundle 理论"重述" multi-level gating，确实获得了更强的理论保证（first-order agreement、block-diagonal Jacobian）。但如果工程实践中"差不多对的 gating"就够用，这些保证的额外价值可能不大。

本文的判断

FiberPO 的贡献在以下方面是实质性的，不是纯粹的重写：

APC-Obj 的对偶性证明
Restorative gradient（可观测的新行为）
组合性框架（FGH 可以自动扩展到新层级）

但以下方面更像是理论美化：

用 fiber bundle 术语重新命名了"两层 gating"
论文的数学重量级（40+ 页证明）可能超出了核心创新的实际复杂度

类比：FiberPO 和 TRPO 的关系，很像牛顿力学和拉格朗日力学的关系。拉格朗日力学用更优雅的数学框架重述了牛顿力学，增加了广义坐标和变分原理——在很多问题上这只是"换了一种说法"，但在某些特定问题（约束系统、对称性分析）上，拉格朗日形式提供了牛顿形式做不到的东西。FiberPO 在大多数场景可能只是"更理论化的 SAPO"，但在多域异构训练等特定场景，它的代数组合性可能提供真正的额外价值。

七、FiberPO vs 方法族：一张对比表

维度	PPO	GRPO	DAPO	GSPO	SAPO	FiberPO
Gating 尺度	token	token	token (decoupled)	sequence	token-adaptive + seq-coherent	multi-level compositional
Off-policy 处理	clip → 零梯度	clip → 零梯度	decoupled clip → 零梯度	hard clip 整个 seq	soft suppression	restorative gradient
Value model	需要	不需要	不需要	不需要	不需要	不需要
理论锚点	TRPO 启发	policy gradient	GRPO 改进	trajectory-level	GSPO 改进	APC-Obj (TV-TRPO 对偶)
Trajectory 间梯度耦合	有	有	有	有	有	无 (block-diagonal)
多域扩展	无原生支持	无	无	无	无	FGH 原生支持
MoE 兼容	一般	一般	一般	好	好	理论上好（未验证）
开源实现	✅ 大量	✅ 大量	✅ verl	✅	✅	❌ 无
独立复现	✅	✅	✅	✅	✅	❌ 无
生产使用	广泛	广泛	广泛	Qwen3	Qwen3-VL	JoyAI-LLM Flash（唯一）

最后一行是关键的：FiberPO 的工程成熟度远低于对比方法。 理论上的优势再漂亮，没有经过社区验证的工程实现，在实践决策中就不应该被过度权重。

八、JoyAI-LLM Flash 的有限实证——唯一的数据点

实验设置

JoyAI-LLM Flash（京东，2026 年 4 月）是一个 48B 参数的 MoE 模型（2.7B 激活参数）。它的技术报告中包含了 FiberPO 在 DAPO-Math-17k 数据集上 vs GRPO 和 GSPO 的消融实验。

实验条件值得注意：

起点是 SFT + DPO 后的 checkpoint——policy entropy 已经很低。论文自己说这是"a deliberately challenging scenario for RL optimization"。
单域：只有数学域。FiberPO-Domain 的多域能力没有被测试。
训练框架：verl
对比方法：GRPO 和 GSPO，无额外稳定器（无 curriculum、无 overlong reward shaping）

结果

GRPO 在 step 60 后 collapse：training reward 开始下降，validation accuracy 停滞。
GSPO 停滞：training reward 上升但 validation accuracy 不再改善。
FiberPO 持续单调上升：training 和 validation 曲线都在后半段保持上升趋势。

训练诊断显示：

FiberPO 的 policy entropy 下降更平稳
importance ratio 的均值保持在更温和的范围
gradient norm 更稳定
fiber residual 和 token-level clip fraction 全程在"安全区间"内

该怎么看这个结果

积极信号：在这个特定设置下，FiberPO 确实展示了更好的训练稳定性。restorative gradient 在诊断图中有直接的可观测证据。

需要谨慎的地方：

只有一个实验设置。单域、单 checkpoint 起点、单数据集。
起点特殊。从高度对齐的 SFT+DPO checkpoint 开始 RL 是一个低 entropy 场景，这种场景放大了 GRPO 的不稳定性。在更"标准"的 RL 设置下（从 SFT 直接开始、policy entropy 较高），GRPO 可能不会 collapse。
没有和 DAPO 对比。DAPO 的 decoupled clip + dynamic sampling 专门为解决训练稳定性设计，是更公平的基线。
没有和 SAPO 对比。SAPO 的 soft gating 解决了类似问题。
只有一个团队的结果。没有独立复现。

本文判断：这是一个值得关注的积极信号，但不足以得出 "FiberPO 普遍优于 GRPO/GSPO" 的结论。需要更多的独立实验、更多的 baseline 对比、更多的训练设置才能做出可靠判断。

九、研发决策场景 + 方法选型框架

场景：一个做 reasoning model post-training 的团队

假设你的团队有以下情况：

已经有一个 GRPO（或 GRPO + DAPO tricks）的 pipeline
正在做数学 reasoning 模型的 post-training
训练有时不稳定（偶尔 collapse、reward hacking）
想提高 token efficiency（用更少的 step 达到相同性能）

你该不该看 FiberPO？

方法选型决策树

Q1：你的训练不稳定的根源是什么？

如果是 reward model 质量差 → FiberPO 帮不了，先修 reward
如果是 entropy collapse → 先试 DAPO 的 dynamic sampling + entropy bonus
如果是 importance ratio 爆炸 / trajectory drift → FiberPO 的 multi-level gating 可能有用，但先试 GSPO 或 SAPO

Q2：你的训练是单域还是多域？

单域（纯数学 / 纯代码）→ FiberPO-Trajectory（两层）可能有边际收益，但 SAPO 更成熟
多域（数学 + 代码 + 对话 + agent）→ FiberPO-Domain（四层）是唯一有多层级原生支持的框架。但它完全没有公开验证

Q3：你的团队有什么能力？

有强 RL 理论和系统能力 → 可以考虑研究和实现 FiberPO
主要是应用导向 → 先把 DAPO tricks 用好，等 FiberPO 有开源实现和社区验证再看

Q4：你是研究导向还是产品导向？

研究导向 → FiberPO 的 APC-Obj 和 FGH 是有价值的研究方向，值得深入
产品导向 → 现阶段不建议投入。等有更多实证再说

总结

你的情况	建议
已有 GRPO pipeline，偶尔不稳定	先上 DAPO tricks（decoupled clip、dynamic sampling）
GRPO + DAPO 仍然不够稳	考虑 GSPO 或 SAPO
需要多域/多层级训练	关注 FiberPO 方向，但等开源和复现
做 RL 理论研究	深入看 APC-Obj 和 FGH
做 agentic RL	GiGPO 是更成熟的两层方案
算力有限	不碰 FiberPO，聚焦 GRPO+DAPO

十、真实踩坑清单

以下是基于 FiberPO 论文描述、JoyAI 实验、以及对相关方法工程经验的合理推断。部分条目明确标注为"推断"。

坑 1：不理解 APC-Obj 就直接实现 FBG

为什么会踩：FBG 的 gating 形式看起来就是"两层 clipping"，容易跳过理论直接写代码。症状：实现出来的 objective 和论文的梯度性质不一致，restorative gradient 消失。根因：FBG 的分解依赖于 APC-Obj 的特定形式作为起点，不是任意 surrogate + 两层 clip。缓解：从 APC-Obj 的 δ-relaxed 形式开始推导，确保分解步骤和论文一致。

坑 2：Trajectory 聚合方式选错

为什么会踩：论文提到了多种聚合方式（加权几何均值等），选哪种影响很大。症状：base gate 过于敏感或过于迟钝。根因：不同聚合方式对 outlier token ratio 的处理不同。缓解：（推断）从论文推荐的默认形式开始，不要自行发明聚合方式。

坑 3：两层 ε/δ 超参调不好

为什么会踩：FiberPO 比 PPO 多了一个维度的超参（PPO 只有一个 $ε$ ，FiberPO 有 $ε\_traj$ 和 $δ\_token$ ）。症状： $ε\_traj$ 太紧导致所有 trajectory 被 gate，训练信号消失； $δ\_token$ 太紧导致退化为 aggressive per-token clipping。根因：两层超参的交互效应比单层更复杂。缓解：（推断）先固定 $δ\_token$ 在和 PPO 类似的值，只调 $ε\_traj$ 。

坑 4：从 off-policy 数据上误用 FiberPO

为什么会踩：FiberPO 的理论保证（first-order agreement）是在 near-on-policy 条件下的。症状：用 replay buffer 中的旧数据训练时，FiberPO 的表现可能不如预期。根因：off-policy 情况下 FBG 分解的假设条件不再成立。缓解：确保 rollout 足够新鲜，或者只在 on-policy 设置下使用。

坑 5：期望 FiberPO 自动解决 reward hacking

为什么会踩：FiberPO 的稳定性改进可能被误解为"更好的 RL 训练"的全面方案。症状：训练很稳但学到了 hack reward 的策略。根因：FiberPO 解决的是 proximal objective 的稳定性，不是 reward design 的问题。缓解：reward 质量仍然是独立问题。

坑 6：在很短的 response（< 50 tokens）上使用 FiberPO

为什么会踩：短 response 场景下 trajectory-level 和 token-level 的区分不明显。症状：FiberPO 退化为类似 PPO 的行为，增加了复杂度但没有收益。根因：trajectory 聚合对少量 token 的统计意义有限。缓解：（推断）短 response 场景用 GRPO + DAPO tricks 更合适。

坑 7：不监控 fiber residual 诊断指标

为什么会踩：FiberPO 提供了额外的诊断指标（fiber residual, token-level clip fraction），但如果不看就浪费了。症状：不知道稳定性问题出在哪一层。根因：FiberPO 的多层结构提供了多层级诊断的能力，但需要主动 log 和监控。缓解：训练开始就把 base gate 激活率、fiber residual、per-level clip fraction 都 log 下来。

坑 8：在 MoE 模型上不处理 routing 导致的 ratio spike（推断）

为什么会踩：MoE 的 routing replay 问题在 FiberPO 中可能以不同形式出现。症状：某些 token 的 importance ratio 因为 routing 变化而极端偏离。根因：FiberPO 的 fiber-level gate 应该能处理单 token 异常，但 base-level gate 可能被这些 spike 影响。缓解：（推断）在 MoE 场景下可能需要在 ratio 计算中补偿 routing 变化。

坑 9：FGH 多层超参调参空间爆炸

为什么会踩：使用 FiberPO-Domain 四层结构，每层一个 ε。症状：调参成本远超 GRPO/DAPO。根因：四个超参的联合影响难以人工直觉。缓解：（推断）从两层开始，逐步加层。或者用 adaptive scheduling 自动调节。

坑 10：假设 FiberPO 可以直接 drop-in 替换 GRPO

为什么会踩：FiberPO 看起来只是"更好的 objective"。症状：切换后训练行为完全不同，之前调好的超参全部失效。根因：FiberPO 的梯度结构（restorative gradient）和 GRPO 的梯度结构（zero gradient at clip）根本不同，这影响了 learning rate、batch size、gradient accumulation 的最优设置。缓解：从头调参，不要复用 GRPO 的超参。

十一、前沿与未解问题

多层级 gating 会不会成为一个新方向？

如果把 FiberPO 的 FGH 和其他方向放在一起看——GiGPO 的两层 credit assignment、SAPO 的 token-adaptive + sequence-coherent 设计——你会发现一个共同趋势：LLM RL 正在从"单尺度 proximal"走向"多尺度 proximal"。 不同方法用不同的技术路线（fiber bundle、soft gating、hierarchical grouping），但方向一致。

这个方向在以下场景下会变得更重要：

Agentic RL：agent 的 trajectory 有 turn、step、action、token 多个层级
多域训练：同时在多个 task domain 上做 RL
MoE 架构：expert routing 引入了额外的不稳定性层级
多模态：不同模态的 token 有不同的 credit assignment 需求

和具体方向的结合前景

MoE + FiberPO：FiberPO 的 base gate 可以用来控制不同 expert partition 的漂移。理论上很匹配，但需要处理 routing replay 问题。
Agentic RL + FGH：多轮工具调用场景下，FGH 可以在 turn → step → token 上做分层控制。比 GiGPO 更有理论保证。
Domain-conditioned RL + FiberPO-Domain：最直接的应用场景，但缺乏实验验证。

未解问题

FiberPO 的实现复杂度到底有多高？ 没有开源实现，无法评估。
Four-level gating 的超参如何高效调节？ 可能需要 auto-tuning 或 adaptive scheduling。
FiberPO 在 off-policy 设置下是否可用？ 当前理论保证仅限 near-on-policy。
Restorative gradient 在什么情况下可能有害？ 如果 trajectory 的偏离是"有意义的探索"而不是"漂移"，restorative gradient 会阻碍探索。
FiberPO 的 compute overhead 是多少？ 额外的聚合计算和多层 gating 的成本不明。

结论：理论启发还是新一代 objective 的起点？

FiberPO 值不值得持续关注？

值得关注，但不值得现在投入生产。

APC-Obj 的对偶性证明是一个真实的理论贡献——它改变了我们对"clipping 到底是什么"的理解。Restorative gradient 是一个可观测的新行为，在 JoyAI 的实验中展示了真实的稳定性改善。FGH 的组合性提供了一种面向未来的设计思路。

但它太年轻了。一篇理论论文 + 一个团队的一组实验，不足以支撑任何"FiberPO 优于 GRPO/DAPO/SAPO"的通用结论。

哪类读者应该重点看？

做 RL 理论研究的人：APC-Obj 的 clipping-TRPO 对偶性是一个值得深入的方向，可能催生更简洁的 policy optimization objective
做多域/agentic RL 的人：FGH 的多层级控制思路值得了解，即使不直接用 FiberPO
框架/系统开发者：如果你在做 verl/OpenRLHF/TRL 级别的 RL 框架，提前了解 multi-level gating 的需求可以指导接口设计

哪类团队现在不该碰？

没有 RL 理论 background 的应用团队：GRPO + DAPO tricks 够用且成熟
算力有限的团队：FiberPO 的超参空间比 GRPO 大，调参成本更高
追求快速产品化的团队：没有开源实现、没有社区最佳实践、debug 全靠自己

这个方向最容易被误解的点

"Fiber bundle" 听起来像是在炫技。 部分是——核心机制可以不用这个术语来描述。但 APC-Obj 的对偶性和 FGH 的组合性确实需要代数工具，不是纯粹的装饰。
"FiberPO 比 GRPO 更好"是一个远未被证明的论断。 它在一个特定设置下表现更好，但那个设置（低 entropy 起点 + 单域 + 无额外稳定器）本身就对 GRPO 不利。
FiberPO 解决的不是"LLM RL 的所有问题"，而只是"proximal objective 的结构性设计"。 Reward 质量、exploration 策略、data sampling、训练基础设施——这些问题 FiberPO 一个都不碰。

最终判断

FiberPO 更可能是 "理论启发 + 新一代 objective 的起点"的结合体，而不是非此即彼。

它的 APC-Obj 会像 TRPO 影响 PPO 那样，影响下一代 policy optimization 方法的设计——提供一个更严格的理论锚点。但它的 FBG/FGH 在工程上最终可能以更简洁的形式落地（类似 TRPO 的 KL 约束最终简化为 PPO 的 clipping）。

如果你做 LLM RL，现在最值得投入精力的是把 GRPO + DAPO tricks 做扎实。但如果你想理解"policy optimization 的下一步方向在哪"，FiberPO 论文值得仔细读——不是为了用它，而是为了理解它揭示的问题结构。

参考资料

FiberPO 一手资料

Fibration Policy Optimization, arXiv 2603.08239, 2025.03
JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency, arXiv 2604.03044, 2026.04
JoyAI-LLM-Flash model: huggingface.co/jdopensource/JoyAI-LLM-Flash

PPO / TRPO 基础

Schulman et al., "Proximal Policy Optimization Algorithms," arXiv 1707.06347, 2017
Schulman et al., "Trust Region Policy Optimization," ICML 2015

GRPO 及其变体

Shao et al., "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models," arXiv 2402.03300, 2024
Guo et al., "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning," arXiv 2501.12948, 2025

DAPO

Yu et al., "DAPO: An Open-Source LLM Reinforcement Learning System at Scale," arXiv 2503.14476, 2025 (NeurIPS 2025)

GSPO / SAPO

Zheng et al., "Group Sequence Policy Optimization," arXiv 2507.18071, 2025
Gao et al., "Soft Adaptive Policy Optimization," arXiv 2511.20347, 2025

多尺度 / 层级 RL

Feng et al., "Group-in-Group Policy Optimization for LLM Agent Training (GiGPO)," arXiv 2505.10978, 2025
"TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning," arXiv 2508.02833, 2025

其他相关

R2VPO: "Ratio-Variance Regularized Policy Optimization," arXiv 2601.03320, 2026
POAD: "Reinforcing LLM Agents via Policy Optimization with Action Decomposition," 2024

关于文中提到的 QUATRO 和 BandPO：这两个方法名称在截至 2026 年 4 月的公开 arXiv 和主要学术数据库中未能查证到对应的论文。它们可能来自未公开的 preprint 或内部研究，本文未将其纳入分析以避免信息不准确。如读者有相关论文链接，欢迎补充。