DeepSeek-R1 开源发布:带来 AI 推理新机遇!教你本地部署

842 阅读6分钟

▎简介

DeepSeek-R1,是幻方量化旗下 AI 公司深度求索(DeepSeek)研发的推理模型。该模型采用强化学习进行后训练,旨在提升推理能力,尤其擅长数学、代码和自然语言推理等复杂任务。

2024 年 11 月 20 日,全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。2025 年 1 月 20 日,幻方量化旗下 AI 公司深度求索(DeepSeek)正式发布 DeepSeek-R1 模型,并同步开源模型权重。1 月 27 日,DeepSeek 应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,在美区下载榜上超越了 ChatGPT。

DeepSeek-R1 拥有卓越的性能,在数学、代码和推理任务上可与 OpenAI o1 媲美。其采用的大规模强化学习技术,仅需少量标注数据即可显著提升模型性能,为大模型训练提供了新思路。此外,DeepSeek-R1 构建了智能训练场,通过动态生成题目和实时验证解题过程等方式,提升模型推理能力。该模型完全开源,采用 MIT 许可协议,并开源了多个小型模型,进一步降低了 AI 应用门槛,赋能开源社区发展。

▎性能

对标 OpenAI o1 正式版

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

论文链接: github.com/deepseek-ai…

蒸馏小模型超越 OpenAI o1-mini

我们在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

![[Pasted image 20250129144243.png]]

▎API 及定价

目前 App 与网页端都是免费的,登录 DeepSeek 官网或官方 App,打开 “深度思考” 模式,即可调用最新版 DeepSeek-R 1 完成各类推理任务。

DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。

▎五大核心亮点深度解读

  1. 中文理解天花板
    支持诗词续写、成语接龙、方言理解(如粤语 / 四川话),在文言文翻译任务中准确率高达 92%。特别优化了数理符号处理能力,完美呈现数学公式推导过程。
  2. 零门槛普惠 AI
    网页端和 APP 完全免费使用,国内手机号即可注册。企业用户可通过「智能训练场」功能,动态生成行业题库(如金融建模题、法律案例分析),实时验证模型推理路径。
  3. 透明可信的推理过程
    独有的「思维链可视化」功能,实时展示模型解题的中间步骤。用户可点击任意推理节点进行人工干预,实现真正的人机协同思考(反观某 AI 连温度参数都不公开)。
  4. 开源生态大爆发
    不仅开源 660B 完整模型,还提供: 行业微调工具包(支持医疗 / 法律 / 金融垂直领域训练) 分布式训练加速方案(8 卡 A100 即可运行 70B 模型) 安全对齐框架(通过强化学习自动过滤 99.7% 的有害输出)
  5. 企业级部署神器 支持国产化适配(华为昇腾 / 寒武纪芯片),提供私有化部署工具包。实测在 4*RTX4090 服务器上,70B 模型吞吐量达 1200 tokens / 秒,推理成本仅为 GPT-4 的 1/20。

▎手把手部署指南(附避坑指南)

Python 环境部署

安装最新版推理加速库(关键!)

pip install deepseek-r1-toolkit --extra-index-url https://repo.deepseek.com/pypi/
from deepseek_r1 import ChatEngine

# 自动检测硬件配置(显存<24GB会自动切换CPU优化模式)
engine = ChatEngine(model_size="32B") 

# 开启思维链可视化
response = engine.chat(
    "某数加5等于12,这个数的平方是多少?",
    show_reasoning=True
)

print(response.answer)        # 输出:49
print(response.reasoning)     # 查看完整推导过程

Ollama 本地部署

  1. 安装Ollama 官方版:【 点击前往

  2. 安装 Chrome 浏览器插件 Web UI 控制端【 点击安装

安装命令

1.5B Qwen DeepSeek R1

ollama run deepseek-r1:1.5b

7B Qwen DeepSeek R1

ollama run deepseek-r1:7b

8B Llama DeepSeek R1

ollama run deepseek-r1:8b

14B Qwen DeepSeek R1

ollama run deepseek-r1:14b

32B Qwen DeepSeek R1

ollama run deepseek-r1:32b

70B Llama DeepSeek R1

ollama run deepseek-r1:70b

2. 更多模型下载

DeepSeek-R1

模型总参数已激活参数上下文长度下载
DeepSeek-R1-Zero671B37B128 千🤗 HuggingFace
DeepSeek-R1671B37B128 千🤗 HuggingFace

DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 进行训练。有关模型架构的更多详细信息,请参阅 DeepSeek-V3 存储库。

DeepSeek-R1-Distill 模型

模型基础模型下载
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct🤗 HuggingFace

DeepSeek-R1-Distill 模型基于开源模型进行了微调,使用了 DeepSeek-R1 生成的样本。我们对其配置和分词器进行了轻微更改。请使用我们的设置来运行这些模型。

高级部署方案

场景推荐方案硬件要求性能指标
学术研究HuggingFace 原版2*A100(80G)原生 PyTorch 支持
生产环境vLLM 加速版4*RTX40901500 tokens / 秒
国产硬件昇腾适配版Atlas 800华为 CANN 加速
移动端TensorRT 优化Jetson AGX8GB 内存即可运行

避坑提示

  1. 首次加载 70B 模型需预留 150GB 存储空间(建议使用阿里云 OSS 加速)

  2. 使用 --load-8bit 参数可降低 50% 显存占用(精度损失 < 2%)

  3. 遇到 CUDA 内存不足时,开启分块推理模式:

    engine.set_config(chunk_size=512, overlap_rate=0.2)
    

▎行业应用场景前瞻

教育领域

  • 智能错题本:拍照上传数学题,自动生成同类变式题
  • 作文批改助手:用《滕王阁序》风格重写「我的家乡」 开发者生态
  • 代码补全插件(VSCode/JetBrains 全系支持)
  • SQL 语句自动优化:输入 "帮我加速这个慢查询",自动生成索引方案 企业服务
  • 合同智能审查:上传 PDF 合同,3 秒定位风险条款
  • 金融建模:输入 "用蒙特卡洛模拟预测茅台股价",自动生成 Python 代码

▎写在最后

DeepSeek-R1 的突破不仅在于技术参数,更在于其开创的开放式 AI 进化范式:通过「智能训练场」动态生成训练数据,配合社区众包标注,让每个用户都成为模型进化的参与者。这种去中心化的 AI 发展路径,或许正是中国大模型弯道超车的关键。

模型下载直通车:
HuggingFace 仓库