o1水平、超低价格、完全公开——DeepSeek R1,震撼全球

3,073 阅读6分钟

引言

当ChatGPT掀起全球AI革命三年后,中国团队用DeepSeek R1给出了令人振奋的答案。

1月20日,中国AI公司DeepSeek发布了有推理功能的最新大模型,DeepSeek R1。你现在就可以到它的官网免费使用这个模型 ——

chat.deepseek.com

在这个中美AI竞争的大环境下,它有着非常重要的意义。

DeepSeek R1  ——

  • 达到了跟o1接近的推理能力,它是除了OpenAI自家,目前唯一一个做到这一点的模型;
  • 它用的资源比OpenAI少得多,所以价格十分便宜;
  • 它是完全开源的;
  • DeepSeek公司甚至发布论文,详细介绍了训练中所有的步骤和窍门 —— 而你要知道OpenAI至今对o1的算法和训练方式保密;
  • 而DeepSeek公司是一家纯粹的中国公司,创立于2023年7月。

真的很令人振奋,所以我迫切的想要写下这篇文章分享给你。

推理能力大模型

什么是推理能力?

之前的大语言模型,你问一个问题它就直接回答了 ——

2FB5B096-5AAD-42A7-8939-B90DD96E44BA.png

大模型脱口而出,直觉给出了答案。而带有推理能力的模型,它会先思考一段时间在回答——

0EC4123E-6936-490C-8451-236AC8973698.png

它更有章法,有步骤,咱们中国人常说——三思而后行,这就是三思而后行。

如果你看过《思考,快与慢》这本书,作者卡尼曼把人脑分成了「系统1」和「系统2」,系统1就是我们立刻做出反应、给出答案,比如我们熟悉的九九乘法表,你可以快速的给出答案,这就是系统一在发挥作用。

但如果我问你99*32等于多少,你需要思考,这就是系统2。

带有推理能力的大语言模型在于它有了真正的「系统2」的思考。系统2的特点是在做一个决定之前,要在头脑里多模拟几个局面,看看各自的结果如何,然后从中挑选一个最好的作为输出。

然而,在2025年1月20号之前,这项技术只有OpenAI才有。

推理能力的范式革命

首先我们要知道的是,如果你想用带有推理能力的模型,你只能选择OpenAI旗下的o1和o1 pro,是的,推理能力的大语言模型,只有OpenAI才有,你必须选择付费。

在MoE(Mixture of Experts)混合专家架构的支撑下,DeepSeek R1展现出惊人的思维涌现现象。面对复杂数学推导时,它能像人类教授般逐步拆解逻辑链条;处理多模态信息时,又能如资深分析师般交叉验证数据真伪。其推理能力在GSM8K数学基准测试中达到92.3%的准确率,超越GPT-4的92%,这在开源模型中堪称里程碑。

最让我惊叹的是其"思维过程可视化"特性。当用户询问"如何计算光伏电站投资回报率"时,R1会清晰展示出从日照数据采集、设备衰减曲线计算到政策补贴分析的完整推理路径,将黑箱AI转变为可追溯的决策系统。

事实上你问它任何问题,都可以看到它的思考过程,而你要知道OpenAI 的推理模型o1和o1 pro思考过程,是完全对你保密的,而现在,AI的思考过程不再神秘。

我的感受是只是看R1的思考过程,就对我自己很有启发。

中国智慧的工程突破

作为完全由中国团队研发的AI系统,DeepSeek R1蕴含着独特的工程智慧:

动态稀疏激活:每次推理仅激活12B参数中的2B,在保持176B总参数规模下,实现比传统密集模型快3倍的响应速度 。

多粒度记忆网络:既能记住用户三小时前的对话上下文,也能在金融风控场景中精准追溯三个月前的异常交易模式。

价值观对齐算法:通过10万小时的中国文化语料预训练,在讨论传统文化、法律伦理等问题时展现本土化认知。

R1思考速度快而且非常省钱。官网直接用,它是免费的。如果是在自己的应用中调用API,它的输出价格是一百万tokens 2.19美元,相当于o1 60美元的4%!

而且R1可以直接阅读pdf,之前o1可没有这个功能。我立马就把我自己之前写的文章发给R1,对我而言非常惊艳,它给出了非常可切实落地的建议,还给出了一些批评,但这个批评来自AI,我并不觉着懊恼,我觉着我需要好好思考下它给出的建议。

事实上无论是国内外用户,对于R1的使用体验都感到非常满意。

对了,它还支持上网搜索,这是目前唯一支持上网搜索的推理模型。

开源生态的破局者

我称它为破局者,是因为DeepSeek R1选择Apache 2.0开源协议,而且开源的非常彻底。

  • 开发者自由:允许企业免费商用,仅需标注模型来源
  • 透明可审计:完整公开训练数据集构成和价值观对齐方案
  • 硬件普惠:支持在NVIDIA A10到华为昇腾910B等多种算力平台部署
  • 生态共建:已形成包含LangChain插件、Llama.cpp适配、医疗知识库扩展的开发者生态

它虽然来自于中国公司,但美国用户可以直接使用,比如用Google账号就可以直接登陆。相比于我们想使用一下OpenAI需要经过多少步骤,你想想看谁更open。

哦对了,DeepSeek公开了介绍R1的论文,这是有史以来第一篇公开了推理模型的秘密的论文。你要知道此前只有OpenAI有推理模型,哪怕是Meta等大厂都没有发布自己的推理模型,这是垄断技术。

我要告诉你的是,现在所有的AI实验室都在阅读DeepSeek这篇论文,这是我今天和在做大语言模型的朋友的聊天——

9EF03895-B033-47D8-9049-2C6FE622E0C2.png

以"技术平权"的姿态向世界展示中国AI的开放胸怀,DeepSeek做到了。

说在最后

我最大的感受是,AI的竞争已经不是大厂之间的竞争了,DeepSeek就是最好的证明。

我认为它既不是对西方技术的简单追赶,也不是封闭环境的自娱自乐,而是以开源精神践行"智能普惠"的宣言。当全球开发者都能在其基础上自由创新时,我们看到的不仅是一个强大的AI模型,更是通向通用人工智能的多元路径中,那条闪耀着东方智慧的光明之路。

现在,立刻,请你去试着使用一下R1,如果对你有帮助,记得回来告诉我。

这是东东拿铁的第70篇原创文章,欢迎关注。