首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
强化学习
AIFrontiers
创建于2025-12-16
订阅专栏
介绍底层原理、应用
暂无订阅
共2篇文章
创建于2025-12-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
本报告将深度解构分析TRL、OpenRLHF、verl、LLaMA Factory四大主流开源LLM-RL训练框架,及 DeepSpeed等重要生态组件,围绕架构设计、关键特性、分布式计算策略及适用场
小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO
先解释一些基本概念,涵盖强化学习理解、价值函数、NLP中的强化学习。 随后,介绍RLHF的起源、设计思路、如何与大模型RLHF算法关联的。再对LLM-RL主流的(PPO、DPO、GRPO、GSPO)策