最近这些天被 DeepSeek 刷屏了,简而言之, DeepSeek 用超低的成本实现了和 ChatGPT o1 类似的效果,在多项测评中甚至还能领先,且它还是开源的!
这对于当前大模型来说,简直是爆炸式的冲击!
大家都知道,现在的大模型拼的是算力,大模型发展至今,发展最好的就是卖卡的 —— 英伟达,各大公司的投入都是几十成百亿用于算力基建,如果说,现在能用超低的成本(几百万)、用普通、一般的硬件,也能实现相同的大模型研发效果,那基于海量参数训练的基础是不是就被撼动了?
从目前的现状来看,答案逐渐显现。就在今天:1月27日,DeepSeek 应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT,苹果中国区应用商店免费榜显示,DeepSeek 成为中国区第一。
国产,体验更方便👍:www.deepseek.com/
为什么 DeepSeek 可以?
先从技术的层面看:
DeepSeek-R1 创新式的深入探索大模型推理能力的多种方法,并发现了更明确的涌现特性。
什么是涌现?
刚好,本瓜前一段时间听一位中科院的院士-徐宗本讲过大模型“涌现”这个词,“涌现”对于大模型就相当于人们常说的:我悟到了!或者说:好像被打通了任督二脉!
DeepSeek-R1 在论文中提出,模型利用纯RL方法(纯强化学习)引导其自主学习和反思推理,这对于“涌现”意义非常重大。
DeepSeek-R1 是怎么做到的呢?
它通过硬编码规则计算出真实奖励,避免使用任何 RL 容易破解的学习奖励模型。这样,模型就会自主反思,探索其它行为,而得到更多奖励。
一句话简述就是: 用最简单的配方, 回归最纯粹的强化学习。
是不是就可以理解为:只要你够狠,逼一逼大模型,它自己也会找找新的路子去获得奖励?
传统训练AI的推理能力方法一般是通过监督微调加入大量的思维链(COT)范例,用例证和复杂的奖励模型,来让模型学会用思维链思考。
DeepSeek 团队抛开预设的思维链模板和监督式微调,仅依靠简单的奖惩信号来优化模型行为:
在 R1 训练过程中,直接一次性实验三种截然不同的技术路径:
1、直接强化学习训练(R1-Zero)2、多阶段渐进训练(R1)3、模型蒸馏,还都成功了!
根据DeepSeek的研究,模型的进步并非均匀渐进的。在强化学习过程中,响应长度会出现突然的显著增长,这些"跳跃点"往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟,暗示着某种深层的认知突破。
更多感兴趣可以看这篇文章:epoch.ai/gradient-up…
图示 DeepSeek v2 技术报告中的多个潜在注意力
从跟随到赶超?
这次大模型爆炸现象的更不一样是:声音来自于中国!不管之前是ChatGPT、还是后来的 Sora ,或者 Claude3 等等,几乎绝大部分都是国外的声音。
DeepSeek(深度求索) 总部位于杭州,创始人梁文锋,本硕均读于浙江大学信息与电子工程学专业,团队核心成员均来自于清北。甚至有新闻爆出:模型中许多重要创新出自国内实习生之手。
梁文锋说:“中国AI不可能永远跟随 必然有人站到技术的前沿” 、“我们经常说中国 AI 和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”
真的太燃了!大模型发展,我们既是见证者,也是参与者。