补齐多模态最后一块拼图!DeepSeek识图模式灰度上线,小鲸鱼终于能“看见”世界了

0 阅读4分钟

4 月 29 日,AI 圈迎来重磅消息 ——DeepSeek 识图模式正式开启灰度测试!被选中的用户打开 DeepSeek 首页,就能发现新增的 “识图模式” 入口,这意味着长期以文本能力出圈的 DeepSeek,终于补齐多模态短板,从 “能说会道” 进化到 “看懂画面”,小鲸鱼真正拥有了看见世界的能力。

从 OCR 到真视觉:不止识文字,更懂画面语义

过去很长一段时间,DeepSeek 仅支持图片文字识别(OCR),算不上真正的视觉理解。而全新的识图模式,彻底打破这一局限 —— 它能像人类一样读懂画面里的物体、场景、空间关系甚至细节氛围,实现从 “读字” 到 “看懂” 的质变。 多位 DeepSeek 研究员第一时间在社交平台官宣这一突破,研究员陈德里更是发文调侃,这一功能来自 DeepSeek “天才多模态同事们”,如今小鲸鱼终于能 “看见” 了。

实测封神!4 大场景见证硬核视觉实力

我们有幸获得灰度测试资格,从基础识物到深度推理,全方位实测识图模式能力,每一项表现都超出预期!

1. 精准识物:一眼辨品种,细节全拿捏

上传一张兔子照片,DeepSeek 瞬间识别出兔子品种,还能清晰描述兔子的姿态、毛色等细节,基础识物能力拉满,精准度堪比专业图鉴。

2. 细节控 + 地理通:草书小字也能认,经纬度分毫不差

我们特意加大难度,上传杭州灵隐寺照片 —— 图中仅右下角路灯上有草书写的 “灵隐寺” 字样,肉眼都难辨认。但 DeepSeek 结合建筑风格与文字细节,快速锁定地点为灵隐寺,给出的经纬度精准无误,全程速度极快,未开思考模式也能 “秒答”。

3. 识破视觉陷阱:不被表象迷惑,直击画面本质

面对一张易让人误以为 “有人坐在椅子上” 的视觉陷阱图,DeepSeek 完全没被误导,精准识别出墙面修补痕迹、垃圾收集区、杂物堆放区等真实场景,逻辑清晰,判断力在线。

4. 深度推理开挂:无文字线索,精准锁定地理范围

开启深度思考模式后,识图模式推理能力再上新台阶。上传一张无任何文字的随手拍照片,它能拆解前景、中景、背景信息,结合地标特征与地理区域匹配,精准判断山脉为燕山山脉、建筑风格符合北京昌平郊区特点,最终将范围缩小至北京昌平区或海淀山后地区,部分猜测与实际距离不到 10 公里,推理能力堪称 “地理侦探”。 此外,我们还尝试了热门的看手相玩法,虽初始看错左右手,但对手相形态的描述贴合事实,分析逻辑清晰,趣味性拉满。

蓄力已久!多模态能力早有铺垫

DeepSeek 识图模式的上线,并非一蹴而就,而是长期深耕多模态领域的必然结果。 早在 2024 年 12 月,DeepSeek 就开源了基于 MoE 架构的多模态模型 DeepSeek-VL2;2025 年,其多模态模型 Janus、JanusFlow 被 CVPR 收录,后续开源的 Janus-Pro 更是在 GenEval 图像生成基准上超越 DALLE-3 和 Stable Diffusion,成为开源多模态阵营的标杆之作。 此前,DeepSeek 主线产品虽未上线视觉能力,但多模态研究从未间断,此次识图模式灰度上线,正是将多年技术积累落地到产品的关键一步。

行业大势所趋:多模态成 AI 必争之地

当下,AI 走向多模态已是不可逆转的行业趋势。人类理解世界,本就是视觉、语言、听觉等多感官协同的结果,而多模态 AI 能打通文本、图像、音频等信息壁垒,更贴近人类认知世界的方式,解锁更多应用场景。 从 GPT-4o 到文心一言,国内外主流 AI 早已布局多模态,此次 DeepSeek 补齐多模态短板,不仅提升自身竞争力,更推动整个 AI 行业向 “全感官智能” 加速迈进。

结语:新起点,未来可期

目前,DeepSeek 识图模式仍处于灰度测试阶段,仅部分用户可体验,功能也有待进一步优化迭代。但不可否认,这是 DeepSeek 发展史上的重要里程碑 —— 从专注文本到多模态融合,小鲸鱼的 “认知边界” 正在不断拓宽。 未来,随着识图模式全面上线,若进一步接入联网搜索,DeepSeek 或将实现 “图片溯源、实景解析、信息联动” 等更多强大功能,为用户带来更智能、更全面的 AI 体验。 AI 多模态时代已来,DeepSeek 的新故事,才刚刚开始。