稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
走去喝酒吧的个人资料头像

走去喝酒吧

创作等级LV.1
掘友等级
掘友4级:进阶掘友
agent
agent everything
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
22
文章 22 沸点 0
赞
22
返回
|
搜索文章
最新 热门
  • GRPO算法
    基于PPO改良的强化学习算法,由DeepSeek团队提出,特别适用于推理模型的微调,它通过组内相对奖励信号来优化策略,避免了传统PPO中需要单独价值函数估计的问题
    • 6小时前
    • 40
    • 点赞
    • 评论
    强化学习
    GRPO算法
  • 个人成就
    文章被阅读 40
    掘力值 10
    关注了
    0
    关注者
    2
    收藏集
    0
    关注标签
    12
    加入于
    2017-07-19