大模型项目 | GRPO+Qwen2.5微调实践

327 阅读2分钟

image.png

他分享了教程、代码、模型以及实践中的收获,放在这里了>>  👉 福利来袭掘金大礼包:《2025最全AI大模型学习资源包》无偿分享,安全可点 👈】

一、背景

国外技术大佬Stefano Fiorucci介绍如何训练领域特定模型的文章,使用 GRPO 微调 qwen2.5-coder-7B,实现了一个生成日程表的大模型。 图片
他分享了教程、代码、模型以及实践中的收获,感兴趣的同学可以扫描下方二维码获取教程代码!图片

二、 任务说明

给模型提供一份事件列表(包含开始和结束时间),并告知它哪些事件是高优先级的。目标是创建一个日程安排,使所选事件的总加权时长达到最大化。 在这种设定下,高优先级事件的权重为 2,普通事件的权重为 1。  

三、数据生成

与监督微调不同的是,这里无需提供模型应该遵循的参考生成内容。这就是为什么在像数学这类可验证的领域中,为 GRPO 构建数据集往往更容易的原因之一。 1. 使用来自不同类别的活动名称。 2. 每个示例包含数量随机(在 4 到 8 个之间)、时长各异的活动。 3. 确保一些活动存在时间上的重叠。 4. 随机将某些活动标记为优先活动。 我们生成了 500 个示例用于训练集,100 个示例用于测试集。  图片图片

四、训练框架

现在有几个训练库支持 GRPO。Hugging Face TRL 是一个很好的选择,它也支持使用 vLLM 在训练期间更快地生成样本。 1. Hugging Face TRL:huggingface.co/docs/trl/in…. Unsloth:docs.unsloth.ai/  图片图片图片图片

五、模型结构

这里决定训练 Qwen2.5-Coder-7B-Instruct,这是 Qwen 系列中一款专门针对代码的语言模型。 1. 作者首先尝试了较小的模型,但这些非常小的模型产生的推理几乎毫无意义。这是第一个经验教训:如果基础模型的预训练或规模使其能力与期望相差甚远,GRPO 也无法创造奇迹。 2. 使用了代码模型而非通用模型,部分原因是这在数学任务中很常见,另一部分原因是这个模型在遵循所需格式方面已经相当出色。  图片六、评估 从实验结果可以得出结论: 1. GRPO肯定起作用了!它在引导模型产生期望行为方面相当有效。 2. 经过调优的模型在这项任务中的表现甚至超过了规模是其两倍的模型。 3. 该模型几乎完美地学会了格式、时间顺序,并且只使用现有事件。图片图片

他分享了教程、代码、模型以及实践中的收获,放在这里了>>  👉 福利来袭掘金大礼包:《2025最全AI大模型学习资源包》无偿分享,安全可点 👈】