DeepSeek-R1 开源发布：带来 AI 推理新机遇！教你本地部署DeepSeek-R1，该模型采用强化学习进行后训

▎简介

DeepSeek-R1，是幻方量化旗下 AI 公司深度求索（DeepSeek）研发的推理模型。该模型采用强化学习进行后训练，旨在提升推理能力，尤其擅长数学、代码和自然语言推理等复杂任务。

2024 年 11 月 20 日，全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。2025 年 1 月 20 日，幻方量化旗下 AI 公司深度求索（DeepSeek）正式发布 DeepSeek-R1 模型，并同步开源模型权重。1 月 27 日，DeepSeek 应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜，在美区下载榜上超越了 ChatGPT。

DeepSeek-R1 拥有卓越的性能，在数学、代码和推理任务上可与 OpenAI o1 媲美。其采用的大规模强化学习技术，仅需少量标注数据即可显著提升模型性能，为大模型训练提供了新思路。此外，DeepSeek-R1 构建了智能训练场，通过动态生成题目和实时验证解题过程等方式，提升模型推理能力。该模型完全开源，采用 MIT 许可协议，并开源了多个小型模型，进一步降低了 AI 应用门槛，赋能开源社区发展。

▎性能

对标 OpenAI o1 正式版

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

论文链接： github.com/deepseek-ai…

蒸馏小模型超越 OpenAI o1-mini

我们在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时，通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

![[Pasted image 20250129144243.png]]

▎API 及定价

目前 App 与网页端都是免费的，登录 DeepSeek 官网或官方 App，打开 “深度思考” 模式，即可调用最新版 DeepSeek-R 1 完成各类推理任务。

DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输出 tokens 16 元。

▎五大核心亮点深度解读

中文理解天花板
支持诗词续写、成语接龙、方言理解（如粤语 / 四川话），在文言文翻译任务中准确率高达 92%。特别优化了数理符号处理能力，完美呈现数学公式推导过程。
零门槛普惠 AI
网页端和 APP 完全免费使用，国内手机号即可注册。企业用户可通过「智能训练场」功能，动态生成行业题库（如金融建模题、法律案例分析），实时验证模型推理路径。
透明可信的推理过程
独有的「思维链可视化」功能，实时展示模型解题的中间步骤。用户可点击任意推理节点进行人工干预，实现真正的人机协同思考（反观某 AI 连温度参数都不公开）。
开源生态大爆发
不仅开源 660B 完整模型，还提供：行业微调工具包（支持医疗 / 法律 / 金融垂直领域训练）分布式训练加速方案（8 卡 A100 即可运行 70B 模型）安全对齐框架（通过强化学习自动过滤 99.7% 的有害输出）
企业级部署神器 支持国产化适配（华为昇腾 / 寒武纪芯片），提供私有化部署工具包。实测在 4*RTX4090 服务器上，70B 模型吞吐量达 1200 tokens / 秒，推理成本仅为 GPT-4 的 1/20。

▎手把手部署指南（附避坑指南）

Python 环境部署

安装最新版推理加速库（关键！）

pip install deepseek-r1-toolkit --extra-index-url https://repo.deepseek.com/pypi/

from deepseek_r1 import ChatEngine

# 自动检测硬件配置（显存<24GB会自动切换CPU优化模式）
engine = ChatEngine(model_size="32B") 

# 开启思维链可视化
response = engine.chat(
    "某数加5等于12，这个数的平方是多少？",
    show_reasoning=True
)

print(response.answer)        # 输出：49
print(response.reasoning)     # 查看完整推导过程

Ollama 本地部署

安装Ollama 官方版：【点击前往】
安装 Chrome 浏览器插件 Web UI 控制端【点击安装】

安装命令

1.5B Qwen DeepSeek R1

ollama run deepseek-r1:1.5b

7B Qwen DeepSeek R1

ollama run deepseek-r1:7b

8B Llama DeepSeek R1

ollama run deepseek-r1:8b

14B Qwen DeepSeek R1

ollama run deepseek-r1:14b

32B Qwen DeepSeek R1

ollama run deepseek-r1:32b

70B Llama DeepSeek R1

ollama run deepseek-r1:70b

2. 更多模型下载

DeepSeek-R1

模型	总参数	已激活参数	上下文长度	下载
DeepSeek-R1-Zero	671B	37B	128 千	🤗 HuggingFace
DeepSeek-R1	671B	37B	128 千	🤗 HuggingFace

DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 进行训练。有关模型架构的更多详细信息，请参阅 DeepSeek-V3 存储库。

DeepSeek-R1-Distill 模型

模型	基础模型	下载
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	🤗 HuggingFace

DeepSeek-R1-Distill 模型基于开源模型进行了微调，使用了 DeepSeek-R1 生成的样本。我们对其配置和分词器进行了轻微更改。请使用我们的设置来运行这些模型。

高级部署方案

场景	推荐方案	硬件要求	性能指标
学术研究	HuggingFace 原版	2*A100(80G)	原生 PyTorch 支持
生产环境	vLLM 加速版	4*RTX4090	1500 tokens / 秒
国产硬件	昇腾适配版	Atlas 800	华为 CANN 加速
移动端	TensorRT 优化	Jetson AGX	8GB 内存即可运行

避坑提示：

首次加载 70B 模型需预留 150GB 存储空间（建议使用阿里云 OSS 加速）
使用 --load-8bit 参数可降低 50% 显存占用（精度损失 < 2%）
遇到 CUDA 内存不足时，开启分块推理模式：
```
engine.set_config(chunk_size=512, overlap_rate=0.2)
```

▎行业应用场景前瞻

教育领域

智能错题本：拍照上传数学题，自动生成同类变式题
作文批改助手：用《滕王阁序》风格重写「我的家乡」 开发者生态
代码补全插件（VSCode/JetBrains 全系支持）
SQL 语句自动优化：输入 "帮我加速这个慢查询"，自动生成索引方案 企业服务
合同智能审查：上传 PDF 合同，3 秒定位风险条款
金融建模：输入 "用蒙特卡洛模拟预测茅台股价"，自动生成 Python 代码

▎写在最后

DeepSeek-R1 的突破不仅在于技术参数，更在于其开创的开放式 AI 进化范式：通过「智能训练场」动态生成训练数据，配合社区众包标注，让每个用户都成为模型进化的参与者。这种去中心化的 AI 发展路径，或许正是中国大模型弯道超车的关键。

模型下载直通车：
HuggingFace 仓库