grpo思考 lvzi 2025-02-20 6 阅读1分钟 deepseek用的grpo训练,我觉得不符合一个不断迭代的思路,因为大量用户带来了大量对话数据,这部分数据在grpo训练中没有得到有效利用(当然,收集到了真实的用户输入数据也是很有价值的,可以作为rl训练的输入prompt,但是消耗大量资源造出来的输出数据被浪费了) 还是当时的reward model在这类迭代场景中更为合适