稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
AI
订阅
avatar
betterlin
更多收藏集

微信扫码分享

微信
新浪微博
QQ

2篇文章 · 0订阅
  • 机器学习|从0开发大模型之DeepSeek的GRPO
    最近,DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩...
    • 周末程序猿
    • 7月前
    • 417
    • 2
    • 评论
    后端 人工智能 DeepSeek
  • 详解基于人类反馈的强化学习 (RLHF)算法原理
    InstructGPT:让人工智能更听话的技术 InstructGPT 是一种训练大型语言模型(就像 GPT-3)的技术,让它们更好地理解人类的指令,并给出更符合我们期望的回答。这种技术的核心是基于人
    • 程序员小jobleap
    • 7月前
    • 333
    • 4
    • 评论
    算法 架构 人工智能