Hello,大家好,我是 Sunday。
放假这几天,DeepSeek
冲上了各大平台的热榜,在美 AppStore
的下载量也超过了 ChatGPT
一跃成为全美第一。
同时,在昨天 英伟达
市值暴跌 16.97%
创有史以来单日最大跌幅,这一切的原因都是因为 国产 AI DeepSeek
的爆火。
这波 AI 界的大地震,意味着游戏规则真的变了。所以今天,我们就来聊聊 DeepSeek 为什么能会突然爆火,以及如何正确使用它!
DeepSeek 为什么会突然爆火?
很多同学看到这里可能会疑惑:现在大模型遍地开花,凭什么 DeepSeek
就突然火起来了呢?
追其原因,主要就是有两点:超低的训练成本 以及 技术上弯道超车。
1. 超低的训练成本
根据官方公布的数据,DeepSeek 的 R1
的预训练费用是 557.6万美元
。大家可能对这个价格不是很敏感,咱们对比下 ChatGPT
的训练成本:
- 训练费用:DeepSeek → 557.6万美元
VS
ChatGPT → 一亿美元以上 - 所需 GPU:DeepSeek → 2000
VS
ChatGPT → 十万以上 - API 使用费用:DeepSeek → V3免费
VS
ChatGPT → 个人版 20美金/月
即:DeepSeek
使用了 ChatGPT
二十分之一 的成本就在 某些领域 下达到、甚至超越了 ChatGPT
的效果。
这就意味着:游戏规则变了!
对于很多新的公司,不再需要砸下天价 GPU 资源,也能训练出领先的 AI 模型。这就导致 AI 训练成本的大幅下降,对高端 GPU 的需求减少,这也是为什么英伟达市值在 DeepSeek 爆火后暴跌 16.97%
。
2. 技术上弯道超车
根据 DeepSeek-R1
白皮书公布的内容,DeepSeek
使用了类似【知识蒸馏】的技术。
知识蒸馏的目标是让一个较小的模型(学生模型)学习一个较大的预训练模型(教师模型)的知识,从而在更少的计算资源和参数量的情况下,仍然能够达到与大模型接近的性能。即:“用一个大模型教会一个小模型”
通俗点讲,假如:ChatGPT 是个苦读 10 年的学霸,那么 DeepSeek 就是个花 1 年学完全部精华的高效学霸。
这也解释了为什么 DeepSeek 能以极低的成本做到接近 ChatGPT 的效果——它本质上是在
用 ChatGPT 教 ChatGPT
,再加上国产 AI 生态的独特优化,使其更高效。
如何正确的使用 DeepSeek
在使用层面 DeepSeek
与 ChatGPT 完全不同,DeepSeek 属于 推理型 大模型,在 深度思考-R1 模式下,可以看到详细的推理过程。
而 ChatGPT
属于 指令型 大模型。它们两者的区别在于:
- 指令型:需要给出具体的指令,大模型会根据你的指令执行。因此就会延伸出【提示词】的概念,详细提示词可以看下我之前写的 这篇关于
Cursor
提示词的文章 - 推理型:具有自己独立思考和分析的能力,它会根据你的【目的】,帮你分析需要怎么做的方式。
咱们通过一个具体的演示来看下。比如,我是前端开发工程师,想要写年终总结,但是不知道具体应该怎么做。 然后咱们分别来看下 DeepSeek v3
和 ChatGPT 4o
的回答
ChatGPT 4o
根据这部分截图的内容可以看出,ChatGPT
的回答属于【一眼 GPT】方案。为你提供除了一些大致的思路,如果你想要得到更准确的答案,那么就需要给出 更准确的提示词
DeepSeek v3
而针对 DeepSeek v3 而言,首先它会给出 深度思考 的步骤,从以上深度思考的内容中可以看出:它会先对你的情况进行分析,然后再给出它的思路。
最后,它基于思路,给出了一个具体的示例:
这个结果会比 Chat GPT 4o
方案更加准确。DeepSeek 给出了对应的示例,可以让我们根据这些示例来完成年终总结的内容。
写在最后
从刚才的简单体验来看,ChatGPT 更适合明确指令,DeepSeek 更适合复杂思考。
因此,如果你已经有清晰的需求,那么 ChatGPT 的回答可能会更加全面,但是需要注意 它是收费的(个人版 20美金/月)。
而如果你希望 AI 帮你分析、思考,甚至优化方案 && 代码,DeepSeek 可能是更好的选择,重点 它是免费的!
前端训练营:1v1 私教,9 大服务,终身辅导,帮你拿到满意的
offer
。 已帮助数百位同学拿到了中大厂offer