llm - 13350747533的收藏集 - 掘金

llm

更多收藏集

1篇文章 · 0订阅

GRPO 代码实战！让大模型具备思维能力，打造你的专属DeepSeek

本篇分享通俗易懂的讲述了GRPO核心原理（不涉及大量公式），并通过TRL库和自定义奖励函数编写代码实现GRPO的完整训练流程！使Qwen2.5-0.5B-Instruct模型具备数学推理的能力~

大模型真好玩
8月前
799
5
2

GRPO 代码实战！让大模型具备思维能力，打造你的专属DeepSeek