地表最强大模型上线

94 阅读3分钟

从最近的 GPT-5.1,到前段时间的 Grok 4、Claude Sonnet 4.5, 一整年都是「神仙打架」的节奏。

而就在昨天,万众瞩目的谷歌终于更新了自己的王牌产品——Gemini 2.5 Pro → Gemini 3 Pro。

官方动态

上线后,笔者第一时间去看了下网页,已经同步切到新版。

网页Gemini

接着我打开 LMArena 排行榜,果然是几乎直接霸榜所有领域了。

对话式聊天

程序开发

多模态

风头甚至压过了刚发布不久的 GPT-5.1。

再看官方发布的 LLM Benchmark,对比上一代也是断层式提升:

LLM Benchmark测试

我们直接让竞争对手 Gpt 来做个打分表: Gemini、Gpt、Claude 的对比表 ↓

LLM Benchmark指标解释

多模态对比

上下文对比

工具能力对比

Gemini 3 Pro 在 2025 的综合能力首次全面压制 GPT-5.1

尤其是:

  1. 多模态(MMMU-Pro)
  2. 长上下文记忆(MRCR v2)
  3. 参数知识(SimpleQA)
  4. 多步推理(HLE)
  5. 代理任务(Terminal-Bench / Vending-Bench)

甚至谷歌最近推出的AI IDE也直接搭载了 Gemini 3 Pro.

对标 Cursor、Windsurf 等一众开发者产品。

谷歌AI IDE,与cursor等类似

为什么 Gemini 3 Pro 突然这么强?

如果说 2023–2024 的大模型竞争还停留在「智力比拼」阶段。

那么 2025 年的大模型,已经进入

工具链 + 多模态 + Agent(代理式 AI)全面开战的时代。

多模态

Gemini 的多模态一直很强,这次更是全面升级。

为什么它这么猛? 因为它一开始就是原生多模态架构——不是那种“文字模型 + 图像模型”拼起来的,而是从底层一起训练。

这让它在:

  1. 文档理解
  2. 图像推理
  3. 视频分析
  4. 表格处理
  5. 跨模态分析

这些任务上表现非常自然。

上下文能力

MRCR v2 测试里,Gemini 3 Pro 的长文回忆得分远超上一代。

这意味着:

  1. 一本厚厚的论文
  2. 一份几十页的合同
  3. 一套项目文档
  4. 一整段会议记录

Gemini 都能记得住,也能总结得非常准。

对于知识密集型场景,这太关键了。

工具调用

这一代的 Gemini,不止能算、能聊、能看,更能“干活”了。

Google 这次直接释放了两件杀手级武器:

  1. **Antigravity 本地 AI 工具链:**能在本地跑程序、构建项目、执行复杂操作Antigravity
  2. **Agentic Workflows:**能把一个任务拆成多步,自己规划、自己执行,也就是强 agent

普通用户会受益什么?

很多人以为这些提升只对程序员有用,但完全不是。

因为Gemini 是免费使用的, 普通人也能直接感受到它带来的改变。

比如:

  1. 拍一张菜品照片,让它教你怎么做
  2. 上传一个表格,让它自动帮你分析
  3. 贴一段代码,让它自己去查错
  4. 丢一份合同,让它帮你提炼重点
  5. 给一个需求,让它自动跑程序、找方案
  6. 发一段视频,让它解释内容、提炼结构

一句话:

Gemini 3 Pro 已经不仅是一个聊天模型,而是一个真正能帮你干活的 AI 助手。

最后

Gemini 和 Chatgpt 这两款产品,两者都有各自的优点。

Gemini 的强项在多模态、执行力和“听话程度”。

笔者碰到最烦人的缺点是:

一旦遇到稍微复杂的数据处理,就容易“偷懒”——比如只做抽样检测。

但好处是,它愿意被你支配,搭配自定义 GAM,日常任务比较稳。

ChatGPT 则完全相反。

它在解决疑难杂症、深度推理、多轮思考上能力非常猛。

缺点也明显:

不太听话——哪怕你定义了自己的 GPTs,它也经常“按自己的理解来”, 尤其是开启 thinking 模式后,经常出现让它干啥就偏不干啥的情况。

两个都强,但两个都有老毛病。

希望这波更新之后, 它们能少点脾气,多点稳定。 毕竟用户现在想要的,不只是“聪明”。