首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型
lhn
创建于2025-12-24
订阅专栏
大模型学习
暂无订阅
共1篇文章
创建于2025-12-24
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大模型强化学习总结
将强化学习应用于强大的基础模型,并结合已经验证的奖励机制,能够显著提升模型的推理能力和性能。Deepseek-R1、Kimi K1.5均是通过策略梯度算法训练而成的。