General PostTraining

General PostTraining

General PostTraining

聚焦大模型后训练前沿研究的阅读分析

暂无订阅共2篇文章创建于2025-04-06

【LLM Tool Learning】论文分享：SWiRL（Multi-Step）

论文名称：Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use；机构：斯坦福大学计算机科学系 + Google Deep

11月前
311
点赞
评论

【LLM Tool Learning】论文分享：SWiRL（Multi-Step）

【LLM RM】论文分享：DeepSeek-GRM

论文名称：Inference-Time Scaling for Generalist Reward Modeling；机构：DeepSeek AI + 清华

11月前
376
点赞
评论

【LLM RM】论文分享：DeepSeek-GRM

【LLM Tool Learning】论文分享：AutoCoA

论文名称：Agent models: Internalizing Chain-of-Action Generation into Reasoning models；机构：北京交通大学

11月前
363
点赞
评论

【LLM Tool Learning】论文分享：AutoCoA