32B模型性能直逼671B的DeepSeek-R1!Skywork-OR1:昆仑万维开源推理模型,突破数学与代码双极限

54 阅读4分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎯 「32B参数模型性能直逼671B的DeepSeek-R1!开源推理模型把数学题碾成渣」

大家好,我是蚝油菜花。当开发者还在为多模态模型的理解力抓狂时,这个来自昆仑万维的开源核弹正在重写推理模型的游戏规则!

你是否经历过这些AI智障时刻:

  • ∑ 让AI解微分方程,结果把积分符号当表情包输出
  • 💻 代码生成器把Python写成火星语,调试比手写还费劲
  • 📊 想用模型做数据分析,却发现它连基础统计概念都混乱...

今天要解密的 Skywork-OR1 ,用三大技术革新终结这些尴尬:

  • 数学脑外科手术:专项模型AIME数学题正确率碾压同尺寸选手
  • 代码炼金术:32B参数模型性能直逼671B规模竞品
  • 推理加速器:多阶段训练策略让模型像人类般逐步思考

已有科研团队用它破解流体力学方程,程序员靠它生成千行级项目代码——你的AI工具箱,是时候装上「推理外挂」了!

🚀 快速阅读

  1. Skywork-OR1是昆仑万维推出的开源高性能推理模型系列,包含7B/32B参数版本
  2. 核心功能:数学推理精度达69.8%、代码生成效率提升40%、支持多轮逻辑推演
  3. 技术原理:GRPO强化学习框架、11万题数学数据集、动态熵控制采样策略

Skywork-OR1 是什么

Skywork-OR1系列基于GRPO强化学习框架构建,通过多阶段训练策略逐步扩展模型的上下文处理能力。该系列包含三个版本:7B参数数学专项模型、7B通用预览版和32B旗舰版,分别针对不同复杂度的推理任务优化。

Skywork-OR1-32b_perf

其训练数据经过严格筛选,数学数据集涵盖11万道高难度题目,代码数据集保留1.37万条通过单元测试的问题。在训练过程中采用动态采样验证机制,确保每个训练样本的有效性和挑战性。

Skywork-OR1 的主要功能

Skywork-OR1-7b_perf

  • 高阶数学推理:专项模型在AIME24/25数据集分别取得69.8%和52.3%准确率
  • 全栈代码生成:支持多语言代码框架搭建与优化,LiveCodeBench性能提升43.6%
  • 长链逻辑推演:通过多阶段窗口扩展训练,实现复杂问题的分步解决
  • 自适应熵控制:在强化学习中采用τ=1.0高温采样,增强模型探索能力

Skywork-OR1 的技术原理

  • 数据蒸馏技术:从89.6万题数学库中筛选AIME/Olympiads等高难度子集
  • 混合验证机制:结合人工评审与LLM自动判题,清理低质量训练样本
  • 策略损失优化:移除KL散度约束,在批次内平均所有token的损失值
  • 窗口渐进训练:分阶段扩展上下文长度,提升长文本推理稳定性

如何运行 Skywork-OR1

1. 环境准备

Docker部署

docker pull whatcanyousee/verl:vemlp-th2.4.0-cu124-vllm0.6.3-ray2.10-te2.0-megatron0.11.0-v0.0.6
docker run --runtime=nvidia -it --rm --shm-size="10g" --cap-add=SYS_ADMIN -v <image:tag>
git clone https://github.com/SkyworkAI/Skywork-OR1.git && cd Skywork-OR1 && pip3 install -e .

Conda部署

conda create -n verl python==3.10
conda activate verl
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
git clone https://github.com/SkyworkAI/Skywork-OR1.git
cd Skywork-OR1 && pip3 install -e .

2. 模型评估

数据准备

huggingface-cli download Skywork/LiveCodeBench --repo-type=dataset --local-dir ./or1_data/eval/livecodebench
unzip ./or1_data/eval/livecodebench/livecodebench.zip -d ./or1_data/eval/livecodebench/

执行测试

bash ./or1_scripts/eval/eval_7b.sh
bash ./or1_scripts/eval/eval_32b.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦