2026全球AI格局:谷歌逆袭夺冠

85 阅读4分钟

2026 年第一天,盘点过去一年的 AI 大模型格局。数据量很大,先说结论:谷歌 Gemini 3 成功逆袭,拿下文本对话和多模态的双料冠军;OpenAI GPT-5 系列不及预期,勉强守住推理和搜索的阵地;偏科生 Anthropic Claude Opus 4.5 在代码和智能体任务上继续称王。而国产大模型的表现,是今年最大的惊喜。

如果你想一站式体验这些顶级模型,nunu.chat 是个极佳的选择。作为聚合了海外顶级大模型的 AI chat 平台,nunu.chat 支持国内直连,并提供大量免费额度,让你无需复杂操作即可调用 Gemini 3 或 GPT-5 等全球最强智力。

这篇文章汇总了 LMArena、LiveBench、Artificial Analysis 三大权威平台截至 2025 年 12 月底的最新排名。简单介绍我最常看的三个榜单:LMArena(原 Chatbot Arena)由加州大学伯克利分校 LMSYS 团队开发,采用类似国际象棋的 Elo 评分系统,累计超过 500 万次真人投票,几乎是 AI 领域的「黄金标准」。LiveBench 是一个「防污染」的学术基准测试,核心特点是每月更新测试题目,所有问题都有客观标准答案,避免了「AI 评 AI」的偏差。Artificial Analysis 是独立 AI 模型评测机构,最新的 Intelligence Index v3.0 综合了 10 项评估。一句话总结:「LMArena 测真人偏好,LiveBench 测客观能力,Artificial Analysis 测综合智商。」

在 Text Arena 这个 LMArena 最核心的榜单上,截至 12 月 30 日,榜首是谷歌 gemini-3-pro,得分 1490。

LMArena文本模型排名榜单

更魔幻的是,第二名还是谷歌,gemini-3-flash 得分 1480。马斯克 xAI 的 grok-4.1-thinking 以 1477 分排第三。Anthropic 的 claude-opus-4-5 系列分列四、五位,得分 1470 和 1467。OpenAI 的 gpt-5.1-high 排到了第八,得分 1458。2024 年,谷歌 Gemini 还在被 GPT 和 Claude 压着打。现在,直接翻盘。

Vision Arena 测试多模态能力,前三全是谷歌:gemini-3-pro(1309 分)、gemini-3-flash(1284 分)、gemini-3-flash (thinking-minimal)(1268 分)。OpenAI 的 gpt-5.1-high 以 1249 分排第四。多模态这个赛道,谷歌 Gemini 领先优势太明显了。而在 Search Arena 联网搜索测试中,谷歌 gemini-3-pro-grounding 以 1214 分居首。

Search Arena联网搜索能力排名

OpenAI gpt-5.2-search 紧随其后得分 1211,差距只有 3 分。gpt-5.1-search 以 1201 分排第三。xAI Grok 系列占据四到六位。谷歌做了二十多年搜索引擎,只领先 3 分,OpenAI 已经很能打了。

代码与智能体方面,WebDev Leaderboard 测试显示,Anthropic claude-opus-4-5-20251101-thinking-32k 以 1512 分遥遥领先。

WebDev代码开发能力榜单

此外,国产模型表现出色:MiniMax minimax-m2.1-preview 以 1445 分排第六,智谱 glm-4.7 以 1441 分排第七,双双杀入全球前十。在 Artificial Analysis 的 Agentic Index(智能体能力)赛道,Claude Opus 4.5 以 67 分排第一,GPT-5.2 排第二,谷歌 gemini-3-pro 和智谱 GLM-4.7 并列第三。DeepSeek V3.2 第六,Kimi K2 和小米 MiMo-V2-Flash 并列第七。智谱和榜首差距只有 4 分,国产模型起点很高了。

在「防污染」的 LiveBench 榜单中,题目非常难且每月更新。

LiveBench客观能力测试排名

Anthropic Claude 4.5 Opus Thinking High Effort 以 76.20 分排第一,OpenAI GPT-5.1 Codex Max 以 75.63 分紧随其后。国产模型中,DeepSeek V3.2 Thinking 以 66.22 分排第十二,月之暗面 Kimi K2 Thinking 以 65.59 分排第十三。

图像领域,Text-to-Image Arena 榜单上,OpenAI gpt-image-1.5 第一,谷歌大香蕉 Nano Banana Pro 第二。国产模型腾讯 hunyuan-image-3.0 排第八,字节 seedream-4.5 第十。而在 Image Edit Arena(图像编辑)榜单上,字节表现亮眼,前十占了三个:seedream-4.5 排第五,seedream-4-2k 第七,seedream-4-high-res-fal 第十。图像生成和编辑,国产模型已经杀进全球第一梯队了。

综合智商方面,Artificial Analysis 总榜上,谷歌 Gemini 3 Pro Preview 和 OpenAI GPT-5.2 并列第一(73 分)。

Artificial Analysis综合智力指数

国产模型排名亮眼:智谱 GLM-4.7 第六,Kimi K2 Thinking 第七,小米 MiMo-V2-Flash 第九,DeepSeek V3.2 第十。Coding Index(编程能力)榜,谷歌 Gemini 3 Pro 和 OpenAI GPT-5.2 并列第一,国产方面 GLM-4.7、DeepSeek V3.2、Kimi K2、MiMo-V2-Flash 均表现不俗。

最后给到大家的使用建议:日常对话、搜索、信息整合和多模态理解,选今年进步最大的 Gemini,或者 8 亿周活的 ChatGPT;用不了的,直接豆包或者千问。写代码,后端选 Claude(或复杂任务 GPT,前端也可以 Gemini),这块它还是王者;嫌麻烦直接 GLM-4.7、MiniMax M2.1、或 Kimi K2。复杂自动化任务,Claude 目前最强,但国产模型的 Agentic 能力也值得一试。图像生成,OpenAI(仅限英文)和谷歌领先,但字节 Seedream 已经很能打了。

2026 年,智能体(AI Agent)还是主战场之一。新年快乐。我是张三番,关注我,2026 继续和 AI 一起进化。