首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
走去喝酒吧
掘友等级
agent
agent anything
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
22
文章 22
沸点 0
赞
22
返回
|
搜索文章
最新
热门
GRPO算法
基于PPO改良的强化学习算法,由DeepSeek团队提出,特别适用于推理模型的微调,它通过组内相对奖励信号来优化策略,避免了传统PPO中需要单独价值函数估计的问题
个人成就
文章被阅读
163
掘力值
11
关注了
0
关注者
2
收藏集
0
关注标签
12
加入于
2017-07-19