大模型

大模型

大模型

大模型学习

暂无订阅共1篇文章创建于2025-12-24

大模型强化学习总结

将强化学习应用于强大的基础模型，并结合已经验证的奖励机制，能够显著提升模型的推理能力和性能。Deepseek-R1、Kimi K1.5均是通过策略梯度算法训练而成的。

4月前
117
点赞
评论