我发现了 DeepSeek 成功的秘密

2,631 阅读5分钟

大家好,我是童欧巴。

央视点名,中国新款 AI 大模型 DeepSeek V3 霸榜全球,用 600 万美金就干了 OpenAI 好几亿美金的活儿。

全球 AI 大佬纷纷发表赞叹:

前 OpenAI 创始成员、前特斯拉人工智能总监 Andrej Karpathy

DeepSeek V3 让在有限算力预算上进行模型预训练这件事变成现实。看起来比 Llama 3 405B 更强,训练消耗的算力却仅为后者的 1/11。

Meta 科学家田渊栋

这真是伟大的工作!

前阿里副总裁贾扬清

DeepSeek 团队的伟大成就在某种程度上植根于多年的专业知识,这些专业知识部分被许多人忽视了。

QLoRA 一作

没有花哨的“学术”解决方案,只有纯粹、扎实的工程。尊重。

这一成功背后的关键点,绝对离不开他们的创始人梁文锋。

因为一个企业,会由什么人组成,大家说什么不说什么,做什么不做什么,其实都源于这个创始人的好恶、荣辱观和安全感。

梁文锋创业十多年,公开采访比较少,但内容非常精彩。

我把他的公开采访摘录成了 10 条,我们来一块看看,中国顶级研究者的视野和抱负。

访谈摘录

1、我们要做的是通用人工智能,也就是 AGI。语言大模型可能是通往 AGI 的必经之路,AGI 会在我们有生之年实现

2、无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有 OpenAI 指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。从长期看,大模型应用门槛会越来越低,初创公司在未来 20 年任何时候下场,也都有机会

3、我们选人的标准一直都是热爱和好奇心,很多人对做研究的渴望,远超对钱的在意。招人有条原则是,看能力,而不是看经验。如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。V2 模型没有海外回来的人,都是本土的。前 50 名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

4、**在颠覆性的技术面前,闭源形成的护城河是短暂的。**即使 OpenAI 闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how,形成可以创新的组织和文化,就是我们的护城河。

5、我们不会闭源,我们认为先有一个强大的技术生态更重要。

6、我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。

7、我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。

8、一件激动人心的事,或许不能单纯用钱衡量。因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。

9、大部分中国公司习惯 follow,而不是创新。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。

10、随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

DeepSeek 显然是那个人群中的逆行者,用实际行动打破了“美国更擅长从 0-1 的技术创新,中国更擅长从 1-10 的应用创新” 的惯性认知。

在模型架构上创新,彻底颠覆了 GPT 架构,用极致的工程设计解决了一个又一个行业难题,在全球范围内都是十分罕见的尝试。

让国产 AI 之光,闪耀世界,值得我们所有人学习。

访谈原文

❤️爱心三连击

1.如果你觉得欧巴的文章还合胃口,就点个赞支持下吧,你的是我最大的动力。

2.关注>>>公众号欧巴聊AI,AI 时代陪你一起成长。

3.点赞、评论、转发 === 催更!