5月1日早上醒来,看到朋友圈和开发者群里在讨论一件事:DeepSeek前两天发的一篇多模态论文,删了。
说实话,第一反应是:什么论文?叫什么?讲什么的?
因为我完全没赶上这趟车。等我知道这事的时候,原文已经404了。
后来看了一些媒体的报道,算是拼凑出了事情的大概。这篇文章从开发者视角说说我的理解,以及这次事件可能带来的影响。
- 事件回顾:发生了什么?
简单梳理下时间线:
4月29日晚:DeepSeek研究员陈小康在X平台发推"Now, we see you",蓝色鲸鱼摘下眼罩,宣布多模态识图功能灰度测试
4月30日晚:陈小康再发推"Excited to release",公布论文《Thinking with Visual Primitives》,上传至GitHub
5月1日晨:推文删除、GitHub仓库404、论文原文消失,官方未做任何解释
就这么没了。
没有任何公告,没有任何说明。
- 技术细节:论文到底说了什么?
根据几篇科技媒体的报道(APPSO、36氪、虎嗅等),这篇被删的论文主要讲的是一件事:
如何让AI在图片中"精确指向"特定对象。
2.1 引用鸿沟:问题是什么?
传统多模态模型的痛点不在于"看不清",而在于"指不准"。
你给模型一张演唱会照片,问"第三排左边第二个穿白衣服的人"——它可能不知道你在说谁。你让它数人数,它可能数错。
DeepSeek把这个问题定义为"引用鸿沟":模型能识别对象,但无法在推理过程中精确指向对象。
这个观察本身不算新,但DeepSeek的贡献在于提出了一个系统性的解决方案。
2.2 视觉原语:解决方案是什么?
核心思想是把"坐标"变成推理的内部变量。
论文提出了两种"视觉原语":
边界框(box) :锁定具体物体,如[[452,23,804,411]]
点坐标(point) :追踪轨迹,如迷宫路径上的每个拐点
推理示例:
plaintext
找到一只熊 [[452,23,804,411]],正在爬树,排除 再往左下看,找到另一只 [[50,447,647,771]],站在岩石边缘,符合条件
不是用自然语言含糊描述,而是用精确坐标来指代。
2.3 模型架构
表格
参数数值基座模型DeepSeek-V4-Flash总参数量284B推理时激活参数13B架构类型MoE
三级视觉压缩流程:
原始756×756图片 → ViT生成2916个图像块token → 3×3空间压缩合并为324个token → CSA压缩稀疏注意力再压缩4倍 → 最终81个视觉KV条目
这个压缩率是7056倍。
对比一下其他模型的KV条目数(处理800×800图片):
DeepSeek:~90个
GPT-5.4:~740个
Claude Sonnet 4.6:~870个
Gemini-3-Flash:~1100个
差距在数量级上。
2.4 训练方法
近10万个数据源筛选出约3.17万个高质量数据集
生成超4000万条训练样本
覆盖计数、空间推理、迷宫导航、路径追踪四类核心任务
后训练策略:"先专家化、后统一"——分别训练边界框专家和点坐标专家,通过在线策略蒸馏合并为统一模型
- 为什么会被删?几种可能性
论文被删的原因,外界猜测很多。我整理了下,主要是这几种:
3.1 技术泄露风险
论文详细披露了五阶段后训练流程、4000万条训练数据构造方法、CSA实现细节。
这些通常是企业核心竞争力。公开等于亮出"武功秘籍"——虽然论文不等于能复现,但至少指了条明路。
对竞争对手来说,省下的时间、踩过的坑,都是实打实的成本。
3.2 产品节奏错位
识图功能4月29日才开始灰度测试,4月30日就公布背后技术架构。
这种"产品还没稳就亮底牌"的操作,在商业上是有风险的。
可能DeepSeek内部本来打算等产品正式上线再发论文做个大新闻,但研究员的个人冲动让计划提前暴露了。发现不对,连夜删除。
3.3 合规考量
多模态AI涉及大量图像处理和坐标标注,数据来源有时候比较敏感。
如果论文中披露的某些数据构造方法"不方便细说",删掉也说得过去。
3.4 开源策略调整
DeepSeek之前一直走全面开源路线,但多模态可能是战略级核心技术。
从"全面开源"到"选择性开源",是合理的商业进化。只是这个转变来得有点突然,沟通没跟上。
- 对开发者的实际影响
作为开发者,我最关心的几个问题:
4.1 我的现有项目会不会受影响?
目前看,删稿对DeepSeek现有产品(API、模型权重等)没有直接影响。
识图功能据说是灰度测试,正式上线时间未知。如果你现在用的DeepSeek-V4还没带视觉能力,那论文删不删跟你关系不大。
4.2 未来还能信任DeepSeek吗?
这个问题我没法给你标准答案。
我的看法是:保持关注,但不盲目押注。
DeepSeek V4的成本优势和性能表现是实打实的,这些不会因为一篇论文被删就消失。但这次事件确实暴露了一些问题——比如产品节奏管理、对外沟通机制等。
作为开发者,我的建议是:
继续用DeepSeek跑你的项目,它的性价比是真实的
但技术选型时保持多手准备,别把所有东西都绑死在一家
关注DeepSeek后续的官方动态,看他们怎么解释、怎么调整
4.3 多模态开发要注意什么?
这次事件给做多模态开发的同学几个提醒:
第一,技术细节不等于产品能力。
论文没了,但识图功能的实际体验才是关键。等产品正式上线、多看看评测再决定要不要接入,比追着论文跑更理性。
第二,坐标推理是个值得关注的方向。
引用鸿沟这个概念点出了一个痛点:当前多模态模型的"指哪打哪"能力弱。如果DeepSeek的思路是对的,其他厂商迟早会跟进。
到时候可能有更多选择。
第三,数据和合规问题要上心。
DeepSeek删稿可能涉及数据来源问题,这提醒我们做多模态应用时,训练数据的合规性很重要。别等出问题了再补救。
- 一点个人感想
说实话,这次事件让我有点唏嘘。
DeepSeek V4刚出来那会儿,我是真心觉得国产开源模型站起来了。性能强、成本低、社区活跃,确实给开发者带来了实惠。
但这篇论文的删稿操作,让这种好感打了折扣。
不是说DeepSeek不能调整开源策略——商业公司有自己的考量,这很正常。但你得说清楚,不能就这么"消失"。
信任这东西,建立起来要很久,崩塌起来很快。
鲸鱼睁开了眼睛,又闭上了。
作为开发者,我选择等它再睁开的时候,再判断它到底在看什么。