当行业还在迷信“参数即正义”时,谷歌用Gemini 3 Flash完成了一次认知颠覆——一个轻量级模型,不仅在百万级上下文中实现90%的MRCR基准准确率,更以3倍速度和超越Pro的智力表现,击穿了传统模型压缩理论的底层假设。这背后不是简单的工程优化,而是一场从架构到范式的根本性重构。本文将深入拆解Gemini 3的技术内核:Titans架构的神经记忆机制、原生多模态的统一表征、Deep Think的并行推理范式,以及Agentic Vision开启的“思考-行动-观察”闭环。
原文首发地址:RskAi(ai.rsk.cn),国内免费体验Gemini3最新模型
一、架构革命:Titans与神经长时记忆
1.1 传统注意力机制的困局
在标准的Transformer架构中,注意力机制的复杂度随序列长度呈平方级增长。这意味着处理百万token时,计算成本和显存占用将变得不可承受。行业为此发展出两条技术路径:线性注意力通过近似计算降低复杂度,但牺牲了推理精度;稀疏注意力只计算“重要”部分,但在复杂任务中容易丢失关键信息。
Gemini 3 Flash的突破在于,它既保持了标准注意力的高精度,又以线性复杂度处理超长上下文。在OpenAI的MRCR基准测试中,Gemini 3 Flash在100万上下文长度下达到90%的准确率,而大多数顶尖模型甚至无法突破256k的上下文窗口。
1.2 Titans:Transformer与神经记忆的融合
根据谷歌DeepMind发表的Titans论文,Gemini 3 Flash极有可能大规模应用了Titans架构或其变体。这是一种结合了Transformer和神经记忆的新型架构,包含三个核心组件:
核心(Core) :滑动窗口注意力,处理短期记忆
长期记忆(Long-term Memory) :一个深度神经网络(MLP),通过梯度下降实时更新权重
持久记忆(Persistent Memory) :存储固定知识的参数化模块
关键在于,当模型处理输入时,它不仅仅是把信息存入缓存,而是通过“惊奇度”(Surprise Metric)指标衡量新信息的重要性。如果一段信息出乎模型的预料(比如用户指定的随机哈希码),模型就会通过梯度更新将其刻入长期记忆网络。这种“测试时学习”(Test-Time Learning)的能力,完美解释了Gemini 3 Flash在MRCR测试中的惊人表现——那些独特的、重复出现的“针”(Needles)产生高惊奇度信号,被优先“学习”进记忆模块,而大量干扰文本则被遗忘门过滤。
1.3 无限上下文的降维打击
Titans的MAC(Memory as Context)变体允许将历史信息压缩进神经网络权重,而非无限增长的KV Cache。这解释了为什么Flash能以极低的内存占用处理百万级token,且速度极快(线性推理)。
从应用层面看,这意味着Gemini 3不再是“金鱼记忆”——在NIAH测试中,它对任意细节的召回率稳定在99.7%以上。更重要的是“推理密度”:模型不仅能记住100万token,还能理解它们之间的逻辑关联。在法律文档分析中,你可以把整个跨国并购案过去20年的所有判例、邮件、合同草案(共计500万字)扔给模型,询问“对方在知识产权条款上是否存在隐蔽的合规漏洞”,它能瞬间给出答案,并精确引用到第342号文件的第12行。
二、Deep Think:从System 1到System 2的跨越
2.1 并行推理架构
Gemini 3 Deep Think的核心在于其内置的深度推理引擎。与传统模型线性预测下一个Token不同,Deep Think模型在输出最终答案前,会经历一个不可见的“思考”阶段。其核心是并行推理路径——当面临复杂问题时,模型会激活多条推理路径同时探索多个假设。
这种架构基于混合专家模型(MoE)的扩展,通过动态路由层将计算资源分配给多个并行线程,每个线程追求不同的逻辑路径。例如面对微分方程,一个线程推导解析解,另一个模拟数值近似,最后通过合成模块评估一致性并选择最优输出。每个并行分支还集成了不确定性量化,分配置信度分数,通过API暴露给开发者,实现程序化过滤。
2.2 基准测试的统治力
Deep Think的推理能力在多项权威基准测试中得到验证
在工具增强模式下,ARC-AGI-2成绩可进一步提升至52%。
2.3 动态计算分配
Deep Think的另一核心特性是“思考时间”的动态调整。根据问题复杂度,模型可以自主决定投入多少算力——简单问答保持高效响应,复杂数学或代码问题则投入更多计算资源。这种“计算随时间分配”(Compute-over-time)的机制,使Deep Think在GPQA Diamond基准测试中实现了博士级推理能力(90.4%),而每任务成本仅为7.17美元,相比OpenAI高计算版本成本降低280至420倍。
2.4 实际科研应用
Deep Think已在实际科研中展现出价值:
- 罗格斯大学数学家利用Deep Think发现高能物理论文中的逻辑缺陷
- 杜克大学实验室借助其优化半导体晶体生长工艺
- 药物发现:分析分子结构,预测相互作用
三、原生多模态:统一表征空间的重构
3.1 从“缝合怪”到“原生”
Gemini系列从诞生之初就走了一条与众不同的技术路径。大多数多模态模型采用“缝合”策略:训练视觉编码器(如CLIP),训练语言模型,再用适配层将它们粘合。这就像让一个人在两个房间分别学习阅读和观察,然后期望他能无缝结合两种能力。
Gemini则完全不同。它使用稀疏混合专家(MoE)Transformer架构,从一开始就接受原生多模态训练。当处理图像时,它不是将像素转换成文字,而是在一个统一的高维空间中同时思考图像、文本和音频。这种统一表征意味着,模型能直接“看”到情绪的流动——在内部测试中,Gemini 3观看3小时无声黑白电影,不仅能根据口型和肢体语言推断剧情,还能指出导演在第45分钟23秒使用了一个极其隐晦的镜头语言来暗示结局。
3.2 交错式Token化
Gemini不按顺序处理图像→文本→音频,而是将所有模态作为单一Token流交错处理,将所有内容映射到统一的嵌入空间。这意味着模型可以在看图表的同时阅读代码,或者在观察演讲者嘴唇动作的同时分析语音。
Token化采用动态分块技术:高分辨率图像不会被简单下采样,而是分割成768x768的块,每个块独立Token化以保留细节。视频处理方面,Gemini 3 Pro引入了可变序列长度处理,通过media_resolution参数在质量和成本间权衡:
- 高分辨率:每帧280 Token,适合细节分析
- 标准分辨率:每帧258 Token(默认)
- 低分辨率:每帧70 Token,适合成本敏感场景
3.3 Ring Attention:跨TPU的全局注意力
Gemini能够处理百万级上下文的秘密武器是Ring Attention。这项技术将注意力计算分布到多个TPU上,在不触发二次方内存爆炸的前提下保持全局一致性。在基准测试中,Gemini实现>99%的召回率——在10小时视频中定位3秒事件,或在107小时音频中找出一个低语的关键词。
四、Agentic Vision:视觉推理的“思考-行动-观察”闭环
4.1 从被动感知到主动操控
2026年1月,Google DeepMind为Gemini 3 Flash推出重量级新能力:Agentic Vision(智能体视觉)。这项技术彻底改变了大模型理解世界的方式——从过去的“猜”变成了如今的“深度调查”。
传统的AI模型在处理图片时,往往只是静态地看一眼。如果图片里的细节太小,比如微处理芯片上的序列号或远处模糊的路牌,模型只能靠“猜”。Agentic Vision引入了一个“思考-行动-观察”(Think-Act-Observe)的闭环:
- 思考(Think):模型分析用户查询和初始图像,制定多步计划
- 行动(Act):模型生成并执行Python代码来主动操控图像(裁剪、旋转、标注)或分析图像(运行计算、计数边界框)
- 观察(Observe):变换后的图像被追加到模型上下文窗口,允许模型以更好的上下文检查新数据
4.2 技术实现与应用案例
在Google AI Studio中,开发者可通过启用代码执行功能解锁新行为:
缩放与检查:Gemini 3 Flash被训练为在检测到细粒度细节时进行隐式缩放。建筑计划验证平台通过启用代码执行,将准确率提高了5%——模型生成Python代码裁剪和分析特定补丁(如屋顶边缘)作为新图像,通过将这些裁剪图追加回上下文窗口,在视觉上确立其推理。
图像标注:模型不仅仅是描述它看到的内容,还可以执行代码直接在画布上绘制以确立其推理。在计数手指的例子中,模型使用Python在它识别的每个手指上绘制边界框和数字标签,这种“视觉草稿纸”确保最终答案基于像素级的完美理解。
视觉数学与绘图:标准LLM在多步视觉算术中经常产生幻觉,Agentic Vision通过将计算放到确定性的Python环境中来绕过这个问题。模型识别原始数据,编写代码将之前的SOTA归一化为1.0,并生成专业的Matplotlib条形图。
4.3 技术路线对比
Agentic Vision的发布恰逢DeepSeek-OCR2问世,两者代表了不同的技术路线:
- DeepSeek-OCR2:走“内功流”,通过DeepEncoder V2模拟人类视觉注意力机制,动态重组图像信息,实现轻量化和逻辑化的“看”
- Agentic Vision:走“外设流”,强调“不光要看清,还要能动手”,用代码执行作为视觉推理的工具
这本质上是“极致的感知”与“全能的交互”之争。
五、工程化转向:从“做模型”到“做系统”
5.1 预训练负责人的洞见
Gemini 3预训练负责人Sebastian Borgeaud在近期播客中深度拆解了模型背后的实验室逻辑。他点出了一个核心转变:谷歌已经不再是单纯“做模型”,而是转向“做系统”。这一观点与DeepMind联合创始人戴密斯·哈萨比斯不谋而合——Gemini 3的强大,根源在于“研究、工程和基础设施”的深度融合。
5.2 合成数据的审慎应用
针对“预训练Scaling Law已死”的争议,Sebastian Borgeaud给出了明确回应:“规模依然重要,但架构创新和数据创新的权重已经显著提升,甚至变得更为关键。”
在数据受限的大背景下,合成数据成为行业追捧的热门方案,但Sebastian Borgeaud的态度相当审慎:“这确实是个有意思的方向,但必须极度谨慎。”合成数据的核心风险是“用错了还浑然不觉”——一旦数据分布发生偏移,模型看似答题能力提升,但可能会陷入“自嗨”的闭环。他给出的稳妥方案是:用强模型生成合成数据后,必须通过小规模的可控消融实验验证其收益和潜在副作用。
5.3 下一代架构方向
Sebastian Borgeaud还透露了DeepMind正在推进的几个方向:
- 后Transformer架构:预训练不会再沿着“更大、更长、更贵”的单一路线走下去,重点会转向架构创新
- 检索增强的内生能力:把检索与搜索更深地融入训练,做端到端、可微的学习,让模型把“会检索”变成内生能力
- 持续学习:基础模型一旦预训练结束,知识就基本定格。更远的目标是改变训练方式,让模型能在真实世界的数据流上持续训练,实现真正意义上的“持续更新”
5.4 评估体系的挑战
Sebastian Borgeaud将评估视为预训练阶段的核心难题:“如果评估体系跟不上,很容易陷入‘看似提升’的假象内耗,根本分不清是模型改对了,还是数据出了问题。”谷歌内部搭建了专属的评估体系,因为外部基准容易被污染,保留内部的评估阵地才是关键。
六、结语:范式革命的启示
Gemini 3的技术突破告诉我们:AI的进化正在从“暴力美学”转向“精致工程”。Titans架构用神经记忆替代无限增长的缓存,Deep Think用并行推理替代单线程猜测,Agentic Vision用代码执行替代概率性幻觉——这些都不是简单的性能优化,而是对“智能如何工作”这一根本问题的重新思考。
对于开发者而言,理解这些底层机制的意义在于:当你调用Gemini API时,你知道背后正在发生什么。你知道为什么Flash能比Pro更聪明,知道Deep Think的置信度分数如何解读,知道Agentic Vision的“视觉草稿纸”如何确保准确性。这种理解,是构建下一代AI应用的基础。
如果你希望亲身体验这些技术突破,国内可直接访问的聚合平台RskAi(ai.rsk.cn) 提供了Gemini 3 Pro的免费入口。但更重要的是,带着对架构的理解去使用——你会发现,每一次对话背后,都有一场关于记忆、推理和感知的技术革命正在发生。
【本文完】