首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
General PostTraining
依然易冷
创建于2025-04-06
订阅专栏
聚焦大模型后训练前沿研究的阅读分析
暂无订阅
共2篇文章
创建于2025-04-06
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【LLM Tool Learning】论文分享:SWiRL(Multi-Step)
论文名称:Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use;机构:斯坦福大学计算机科学系 + Google Deep
【LLM RM】论文分享:DeepSeek-GRM
论文名称:Inference-Time Scaling for Generalist Reward Modeling;机构:DeepSeek AI + 清华
【LLM Tool Learning】论文分享:AutoCoA
论文名称:Agent models: Internalizing Chain-of-Action Generation into Reasoning models;机构:北京交通大学