AReaL-boba：仅用200条数据复现32B模型效果！蚂蚁清华联手打造强化学习+数据蒸馏框架，7B模型数学推理碾压同级

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

💥 "开源界新突破！蚂蚁清华联手打造强化学习神器，7B模型数学推理碾压同级"

大家好，我是蚝油菜花。当大多数团队还在为训练大模型烧钱时，这个开源框架已经用200美元复现了32B模型的推理效果！

你是否经历过这些AI训练噩梦：

🤑 训个7B模型电费账单堪比奢侈品
🧮 数学推理模型表现总差那么几分
⏳ 分布式训练调参调到天荒地老...

今天解析的 AReaL-boba ，正在改写强化学习训练规则！这个蚂蚁与清华联合开源的框架，用三大黑科技让开发者集体沸腾：

✅ 性能屠榜：7B模型在AIME数学测试中碾压所有同级，分数暴涨8.6%
✅ 成本魔术：用200条数据+200美元复刻32B模型效果
✅ 工业级优化：集成SGLang框架，训练速度最高提升73%

已有团队用它48小时训出金融推理模型，文末附保姆级部署指南——你的GPU准备好迎接强化学习革命了吗？

🚀 快速阅读

AReaL-boba是首个全面集成SGLang推理框架的开源强化学习训练系统。

性能突破：7B模型在AIME数学推理基准测试中达到61.9分，刷新同尺寸纪录
技术革新：采用数据蒸馏技术，仅需200条数据即可复现32B模型效果

AReaL-boba 是什么

AReaL-boba

AReaL-boba 是蚂蚁技术研究院和清华大学联合推出的开源强化学习训练框架，作为AReaL的升级版本，它通过工程优化显著降低了强化学习训练门槛。该框架创新性地集成SGLang推理框架，支持从小规模单机到千卡级集群的分布式训练。

框架采用数据蒸馏等前沿技术，在32B模型尺寸上仅用200条数据和200美元成本即可复现顶级模型的推理效果。其开源的7B模型在数学推理任务中表现卓越，刷新了AIME基准测试的同尺寸模型分数纪录，同时提供完整的训练数据、脚本和模型权重。

AReaL-boba 的主要功能

高效训练：基于SGLang框架深度优化，训练吞吐量最高提升73%，支持单节点至千卡级分布式训练
推理增强：7B模型在AIME数学推理测试中达到61.9分，超越所有同尺寸开源模型
低资源适配：创新数据蒸馏技术仅需200条数据即可训练32B模型，成本控制在200美元内
全栈开源：完整公开代码、数据集、训练脚本及评估方案，确保全流程可复现

AReaL-boba 的技术原理

强化学习优化：通过奖励信号动态调整模型行为，在数学推理等任务上实现生成能力突破
SGLang集成：首个全面兼容SGLang推理框架的训练系统，实现计算效率质的飞跃
数据蒸馏：从海量数据中提取关键特征样本，使32B模型训练数据量缩减至200条
工程创新：采用并行计算与显存管理等技术，在不同规模硬件上均实现训练加速

如何运行 AReaL-boba

快速开始

# 训练7B蒸馏模型
python3 -m realhf.apps.quickstart ppo-math \
  --config examples/configs/7B-distill/ppo-7B-distill-gpus-128.yaml

# 评估7B模型
python evaluation/eval_and_aggregate.py \
  --model_path ${MODEL_PATH} \
  --output_path ${OUTPUT_PATH} \
  --data_names aime24,aime25 \
  --prompt_type AReaL-boba \
  --output_path outputs --temperature 1.0

资源

GitHub 仓库：github.com/inclusionAI…

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦