rl

rlhf

暂无订阅共1篇文章创建于2026-01-11

基于PPO改良的强化学习算法，由DeepSeek团队提出，特别适用于推理模型的微调，它通过组内相对奖励信号来优化策略，避免了传统PPO中需要单独价值函数估计的问题

3月前
282
点赞
2