稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
llm
订阅
avatar
13350747533
更多收藏集

微信扫码分享

微信
新浪微博
QQ

1篇文章 · 0订阅
  • GRPO 代码实战!让大模型具备思维能力,打造你的专属DeepSeek
    本篇分享通俗易懂的讲述了GRPO核心原理(不涉及大量公式),并通过TRL库和自定义奖励函数编写代码实现GRPO的完整训练流程!使Qwen2.5-0.5B-Instruct模型具备数学推理的能力~
    • 大模型真好玩
    • 6月前
    • 667
    • 5
    • 2
    人工智能 Python DeepSeek
    GRPO 代码实战!让大模型具备思维能力,打造你的专属DeepSeek