强化学习

强化学习

强化学习

介绍底层原理、应用

暂无订阅共2篇文章创建于2025-12-16

收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定

本报告将深度解构分析TRL、OpenRLHF、verl、LLaMA Factory四大主流开源LLM-RL训练框架，及 DeepSpeed等重要生态组件，围绕架构设计、关键特性、分布式计算策略及适用场

2月前
516
点赞
评论

小白也能看懂的LLM-RL算法：PPO/DPO/GRPO/GSPO

先解释一些基本概念，涵盖强化学习理解、价值函数、NLP中的强化学习。随后，介绍RLHF的起源、设计思路、如何与大模型RLHF算法关联的。再对LLM-RL主流的（PPO、DPO、GRPO、GSPO）策

3月前
276
点赞
评论