首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
走去喝酒吧
掘友等级
agent
agent everything
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
22
文章 22
沸点 0
赞
22
返回
|
搜索文章
最新
热门
GRPO算法
基于PPO改良的强化学习算法,由DeepSeek团队提出,特别适用于推理模型的微调,它通过组内相对奖励信号来优化策略,避免了传统PPO中需要单独价值函数估计的问题
个人成就
文章被阅读
40
掘力值
10
关注了
0
关注者
2
收藏集
0
关注标签
12
加入于
2017-07-19