DeepSeek列入国运级这个说法我最早是在《黑神话:悟空》冯骥的微博上看到的,2025年1月26日晚他发文力挺DeepSeek,称其“可能是个国运级别的科技成果”。
当时的点赞量就非常的高,并且冯骥还建议大家马上用起来。自那以后微博和百度就能搜索到不少国运级+DeepSeek关联的文章或视频。
我们先来看看什么是"国运级"?
国运级的定义和评价没有统一的标准,一般来说是指对国家综合实力、经济发展、科技进步等方面有深远影响的东西。当然某个东西是否是国运级,可能是某个有影响力的大佬或国家相关专家说过,也可能是某个东西发展到一定阶段大家自然而然就认为是国运级。
那么看看网上搜索出来有哪些是国运级的,
袁隆平院士的杂交水稻技术,杂交水稻技术可以作为粮食的安全底线,不但保证了上保证粮食的产量,还解决了卡脖子的问题。
运载火箭技术,在中国的航空航天领域有很多国运级的技术,如中国的长征运载火箭。一般能看到某某国家运载火箭发射失败,但中国的长征火箭不但承载了自己国家的航天运输,还承揽了众多国家的运输订单。长征火箭的发射成功率在全球范围都处于非常高的水平。
北斗卫星技术,北斗卫星导航系统是中国自主建设运行的全球卫星导航系统,为用户提供高精度定位、导航等服务。能为国家的交通、气象、通信及公共安全等多个领域提供支撑。
当然像这种国运级的东西还是不少的,那么为什么冯骥会说人工智能领域的DeepSeek也可以列入国运级呢我们来顺着冯骥大佬的微博看看,他有微博中列举了6条特点:强大(1)、便宜(2)、开源(3)、免费(4)、联网(5)、本土(6)
并说如果有一个AI大模型做到这6条任何一条都是超级了不起的突破,而DeepSeek同时做到了,说大家现在要做的就是赶紧用起来。
下面我们来具体分析一下:
DeepSeek社会层面的影响
- DeepSeek能登顶苹果免费下载排行榜Top 1并且还是在没有砸钱的情况下。
- 美国总统特朗普说DeepSeek给他们的AI行业敲响了警钟。
- DeepSeek发布后美股科技板块遭遇重挫,欧美科技股市值蒸发约10000亿美元。
- DeepSeek发布当时导致英伟达股价暴跌17% ,市值单日蒸发约6000亿美元。
在AI变革至今,这肯定是国内对全球AI的一次空前影响。如果说中国在农业时代是老哥级的,而在工业时代已经远远落后于西方国家。特别是在第一次、第二次,第三次工业革命中国基本上在复制,而第四次工业革命人工智能革命中国的DeepSeek走出了1至100的桎梏,走向了0到1的突破。
而在这样的情况下DeepSeek能登顶苹果免费下载排行榜并且还是在没有砸钱。可以看到网上一些数据,几个头部企业平均每个月在AI上的广告费用就是以亿为单位来计算的。这就更能突出DeepSeek在当下人工智能大环境下的优秀之处。
DeepSeek技术层面的影响
- DeepSeek通过PTX编程绕过CUDA限制
- DeepSeek-R1的性能与OpenAI的o1相当,成本降低约95%
1)技术创新与突破
从技术上来看DeepSeek带来了很多技术上的创新与升级,大大降低了训练成本。
DeepSeek R1技术创新的大环境是,国内几个庞然大物的头部企业完全放弃在人工智能领域的创新,而作为一个由梁文锋2023年7月才成立的深度求索小公司坚持技术创新本心推出可以比肩GPT的产品。可以想象到它面临的困难有多大。从天眼查可以看到深度求索的股东结构并没有头部企业的支持,或许它与头部企业还是竞争对手的关系。
DeepSeek老板梁文锋一个85年的80后,一直保持着科技创新的初心,当年大疆曾施工图招募过他,他没有去。出名后大厂投资他,他没有收。始终保持初心不被外界或资本左右自己的初心。可以想象这样的小企业要经历多少的困难,据说梁文锋招聘的团队成员没有要求在全球顶级的大学,而是招聘国内本土大学的人才。对团队成员保持他们各自的个性不压制还给予大量的金钱和资源去实现他们的个性想法。在国内这个环境这么好的老板不少见了。
我们再看看看具体的技术创新,
此次带深度思考的AI版本,就是让AI和人类一样来思考。就是人类一样面对问题会先思考一下,思考完梳理后给出答案。
Step1:读取资料
AI训练时需要提供大量的训练数据,有时我们向AI提供一篇几万甚至几十万字的文章,AI需要先读取文章数据。那么对于人类来说要不就是一个字一个字来读,要不就是跳读。这也就类似我们学生老师让我们快速阅读一篇新课本上的文章就常常会让我们使用跳读,一段内容看开头大致了解主要内容,跳过一些次要的内容,大概知道这段的大意就可以了。
对大模型来讲也是类似的,DeepSeek引入了MLA(多头潜在注意力) 。它让AI读文章时挑出潜在的关键词,如目录、小标题、开头、结尾、重点段落,然后只在这些地方重点看而不是一个字一个字都看。大大节省了时间,又能抓住核心思想。
Setp2:思考问题
等我们跳读完课本后,老师就会提一些问题。
此时AI也就在深度思考的过程,DeepSeek采集MoE混合 专家模型。
也就是说在一个庞大的神经网络中,会有很多个专家。一般来说大模型问题来了后就会调动所有的专家来思考这个问题。但我们知道术业有专攻,MoE只找最合适的专家来回答问题,其它专家不激活、不参与思考。
Setp3:回答问题
DeepSeek使用蒸馏与FP8等技术,如DeepSeek使用FP8来存储和计算参数和数据,这种类似压缩技术,不但节省了资源同时,模型的推理准确率几乎不变。
在技术层面DeepSeek解决了一个比较关键的技术,英伟达的卡脖子。我们知道AI大模型都是依赖CUDA生态,迁移到其他芯片极难。目前来说程序调用GPU需要通过英伟达的CUDA,而CUDA英伟达进行了封装并且是闭源的。所以说大家不能直接控制GPU而需要通过英伟达的CUDA工具。
而DeepSeek通过PTX编程绕过CUDA限制。
2)能力提升与成本降低
关于成本降低约95% 的事情,虽然有不少反驳说OpenAI其实并没有官方的公开训练成本,另外就是DeepSeek训练也没包含人工投入如团队成员的工资等。不论如何DeepSeek的成本远远低于OpenAI或者说远远低于当下其它大模型已经是个事实。
我们来详细看看这张DeepSeek官方给出的几个大模型的测试对比数据
横轴:AIME 2024、Codeforces、GPQA Diamond、MATH-500、MMLU、SWE-bench Verified。这些都是目前业内常用的AI大模型能力测试指标。
纵轴:Accuracy/Percentile(%)
横轴主要是一些AI模型测试的纬度,如数学推理(AIME、MATH-500)、编程代码能力(Codeforces、SWE-bench Verified)、通用知识与推理能力(GPQA Diamond、MMLU)。
纵轴主要就是表示模型在特定任务上的正确回答比例的百分比。
AIME 2024
用于评估大模型在高难度数学竞赛题目上的解题能力,
DeepSeek(79.8%)>OpenAI o1(79.2%)。
Codeforces
用于评估大模型在算法竞赛中的编程能力
DeepSeek(96.3%)<OpenAI o1(96.6%)。
GPQA Diamond
用于评估大模型在通用知识问题上的解答能力
DeepSeek(71.5%)<OpenAI o1(75.7%)。
ATH-500
用于评估大模型在数学推理能力的基准测试数据集,包含500道高难度数学题
DeepSeek(97.3%)>OpenAI o1(96.4%)。
MMLU
用于评估大模型在多学科知识上的理解和推理能力
DeepSeek(90.8%)<OpenAI o1(91.8%)
SWE-bench Verified
用于评估大模型在代码修复和验证能力
DeepSeek(49.2%)>OpenAI o1(48.9%)。
这些能力测试的数据DeepSeek基本与OpenAI o1比肩,并且不少的几项都超过OpenAI o1大模型。