# **AI Agents 新闻日报（2026年6月）：MiniMax M3、Cosmos3、OpenAI Robotics 与 Physical AI 竞赛全

核心看点

香港中文大学推出 SLIM 框架，让 AI Agent 学会动态管理技能生命周期。

开源网关 GodeX 发布重大升级，进一步打通不同大模型协议壁垒。

ChatGPT 表格插件曝出严重安全漏洞，再次暴露 Agent 系统的风险边界。

英伟达推出 Vera CPU，专门针对 AI Agent 工作负载优化。

AI 算力需求推动精炼锡价格半年暴涨40%。

MiniMax 发布新一代 M3 大模型，同时实现顶级编程能力、百万上下文和原生多模态。

英特尔推出 OpenVINO Physical AI Framework，加速机器人边缘部署。

LobsterAI 上线图片与视频生成矩阵。

OpenAI 正式重启机器人业务。

英伟达发布 Cosmos3，并成立 NVIDIA Cosmos Coalition。

AI产业正在从“聊天时代”迈向“行动时代”

过去几年，大模型产业的发展重点主要集中在语言理解、推理能力、多模态交互以及代码生成领域。

但2026年开始，一个越来越明显的新趋势正在浮现：

AI产业竞争正在从“谁更会说”，逐渐转向“谁更会做”。

本周出现的十条重要新闻几乎全部围绕同一个主题展开：

Agent、自主执行、机器人、世界模型、Physical AI以及底层基础设施。

无论是 OpenAI 重返机器人赛道，还是 NVIDIA 发布 Cosmos3，又或者香港中文大学提出 SLIM 动态技能管理框架，都说明行业正在进入一个新的阶段：

AI开始真正尝试进入现实世界。

1. 香港中文大学发布 SLIM：Agent 不再盲目堆技能

随着 AI Agent 逐渐承担复杂任务，一个被长期忽视的问题开始暴露：

外部技能库正在变得越来越臃肿。

当前许多 Agent 系统依赖大量工具、插件和技能模块。

然而随着技能数量增长：

检索效率下降

上下文噪声增加

推理链变长决策质量降低

针对这一问题，香港中文大学研究团队提出了 SLIM（Skill Lifecycle Management）框架。

其核心思想非常简单：

不要无限增加技能，而是让 Agent 自己决定哪些技能应该保留、退休或者扩展。

研究团队设计了独特的 Leave-One-Skill-Out 审计机制。

系统会暂时关闭某个技能并评估其真实价值。

如果关闭后性能明显下降：

该技能被保留。

如果长期贡献有限：

系统自动让其退休。

而当遇到新的失败场景时：

Agent 还能自动生成新技能。

实验结果显示：

SLIM 平均领先现有最佳方法7.1个百分点。

在 ALFWorld 家庭环境任务中成功率达到87.5%，远超 SkillRL 的75%。

这意味着未来 Agent 不再只是工具调用器，而会逐渐成为能够管理自身能力体系的自主智能体。

2. GodeX 打破大模型协议壁垒

随着 AI Agent 生态快速发展，开发者正面临另一个现实问题：

不同模型之间协议完全不统一。

OpenAI、Anthropic、智谱、MiniMax 等厂商拥有各自不同的 API 规范。

这使得开发成本持续上升。

开源项目 GodeX 本周发布 v1.1.0 更新。

其目标非常明确：

让开发者只需对接一次协议即可接入多个模型生态。

此次升级重点包括：

推荐默认模型切换至 MiniMax M3

支持图片理解

支持视频理解

推理链标准化输出

联网搜索结构化还原

尤其是在联网搜索场景下，

GodeX 能够将不同模型返回的数据统一转换为标准 Responses 格式。

对于 Agent 系统而言：

这意味着更容易实现跨模型协同和统一编排。

未来 AI 基础设施竞争很可能不仅发生在模型层，也发生在协议层。

3. ChatGPT 表格插件爆发严重安全漏洞

AI Agent 进入办公领域后，安全问题开始快速暴露。

安全公司 PromptArmor 本周披露：

知名插件 ChatGPT for Google Sheets 存在严重漏洞。

攻击方式属于近年来快速增长的：

Indirect Prompt Injection（间接提示词注入）。

攻击者可以将恶意指令隐藏在表格数据内部。

当用户导入文件后：

AI插件可能自动执行隐藏指令。

研究人员发现：

攻击者不仅能够访问当前工作簿，

甚至能够横向发现其他关联文档。

更危险的是：

恶意脚本还能够伪造官方认证窗口。

用户误以为来自可信插件，

从而主动输入账号密码。

这一事件再次证明：

Agent时代最大的挑战之一可能不是能力，而是安全边界。

4. NVIDIA Vera：专为 Agent 打造的新型 CPU

本周另一项重要发布来自英伟达。

公司正式推出 Vera CPU。

过去十年：

GPU一直是AI计算核心。

但Agent系统的兴起开始改变这一格局。

大量任务实际上更依赖CPU：

工作流编排

强化学习训练

调度系统

数据管理

Agent执行链控制

这些都属于CPU密集型工作负载。

Vera 正是针对这一问题设计。

根据官方数据：

Agent任务执行速度相比传统x86 CPU提升高达80%。

更值得关注的是：

OpenAI、Anthropic 与 SpaceX 已经成为首批采用者。

这意味着未来 AI 基础设施竞争将进一步下沉到底层架构层面。

5. AI热潮引爆“算力金属”危机

人工智能正在重塑全球资源市场。

本周精炼锡价格再度成为行业焦点。

过去半年：

精炼锡价格从约30万元/吨上涨至42万元/吨。

涨幅接近40%。

原因来自先进封装需求爆发。

现代AI芯片需要更高密度堆叠。

而锡正是封装与焊接过程中的关键材料。

行业数据显示：

单台AI服务器用锡量达到传统服务器三倍以上。

与此同时：

缅甸、印尼等主产区供应持续收紧。

供需矛盾不断加剧。

部分机构甚至预测：

按照当前消耗速度，

全球锡矿资源可能只剩约15年可开采周期。

AI革命正在从软件领域影响到现实世界的矿产与工业体系。

6. MiniMax M3：开源模型竞争进入新阶段*

国内大模型领域本周迎来重要突破。

MiniMax 正式发布新一代旗舰模型 M3。

这也是目前全球极少数同时具备：

顶级编程能力

百万上下文窗口

原生多模态能力

的开源模型。

在 SWE-Bench Pro 评测中：

M3 达到59.0%。

成绩超过 GPT-5.5 与 Gemini 3.1 Pro。

同时：

在 Claw-Eval Agent 测试、

OmniDocBench 多模态文档理解测试中，

均达到行业领先水平。

其核心创新来自：

MSA（MiniMax Sparse Attention）。

这一全新稀疏注意力机制将百万上下文计算成本大幅压缩。

官方数据显示：

Prefilling 加速超过9倍

Decoding 加速超过15倍

未来长上下文模型的发展方向，

很可能不再只是扩大窗口，

而是如何以更低成本运行超长上下文。

7. 英特尔发布 OpenVINO Physical AI Framework*

除了英伟达之外，

英特尔也开始全面押注 Physical AI。

在 Computex 2026 上，

公司正式发布 OpenVINO Physical AI Framework。

长期以来，

机器人部署面临一个核心问题：

不同设备之间缺乏统一开发框架。

每个机器人都需要单独适配：

摄像头

雷达

控制器

推理系统

导致部署成本极高。

OpenVINO 试图解决这一难题。

通过与 Core Ultra Series 3 芯片深度整合：

开发者能够以统一方式部署机器人系统。

同时强调边缘推理能力。

机器人无需依赖云端即可完成实时决策。

这对于工业自动化和自动驾驶尤为重要。

8. LobsterAI 上线图片视频模型矩阵*

国内 AIGC 平台竞争也正在升级。

网易有道旗下 LobsterAI 本周宣布上线图片与视频生成能力。

此次升级最大的特点在于：

并非依赖单一模型。

而是采用矩阵式聚合策略。

平台同时接入：

Seedream

Seedance

HappyHorse

MiniMax-Hailuo

四大主流模型。

这种模式的优势在于：

开发者无需频繁切换平台。

即可调用多个顶级生成模型。

未来多模型协同很可能成为内容生成领域的重要趋势。

9. OpenAI 正式重启机器人业务*

本周最受行业关注的事件之一来自 OpenAI。

Sam Altman 正式宣布：

OpenAI Robotics 回归。

公司已经启动机器人团队招聘。

涵盖：

硬件工程师

系统工程师

机器学习研究员

机器人开发人员

事实上，

OpenAI 曾经拥有机器人项目。

但由于当时模型能力有限最终停止。

如今随着 GPT 系列模型快速进步，

机器人业务重新获得技术基础。

奥特曼表示：

短期目标是帮助建设未来基础设施。

长期目标则是打造通用个人机器人。

这意味着 OpenAI 正在尝试把数字世界中的智能延伸至现实世界。

10. Cosmos3 发布：Physical AI 正式进入开源时代*

本周压轴事件来自 NVIDIA。

公司正式推出全球首个全开源全模态 Physical AI 世界模型：

Cosmos3。

与传统多模态模型不同，

Cosmos3 不只是理解图像和文本。

其目标是构建一个能够理解现实物理规律的智能系统。

模型融合：

世界建模

视觉推理

环境仿真

动作预测

其核心架构创新在于：

将推理 Transformer 与生成 Transformer 融合。

系统首先理解：

物体交互

运动状态

时空关系

随后再进行视频生成和动作预测。

这种方式让模型具备更强的：

物理推理能力

世界模拟能力

机器人决策能力

在 Artificial Analysis、Physics-IQ 与 RoboLab 等评测中，

Cosmos3 均位居开源模型第一梯队。

同时英伟达推出：

Cosmos3 Super

Cosmos3 Nano

Cosmos3 Edge

多个版本。

更重要的是，

英伟达还联合：

Agile Robots

Runway

Skild AI

Black Forest Labs

LTX

等企业共同成立 NVIDIA Cosmos Coalition。

这意味着英伟达正在尝试建立属于 Physical AI 时代的新生态系统。

为什么这些新闻值得关注？*

如果把本周十条新闻放在一起观察，

会发现一个极其清晰的趋势：

AI产业正在从“大模型竞争”进入“智能体竞争”。

过去行业比拼：

谁拥有更大的参数规模。

如今行业开始比拼：

谁拥有更强Agent

谁拥有更好的世界模型

谁拥有更完善机器人生态

谁拥有更强基础设施

从 SLIM 到 Cosmos3，

从 Vera 到 OpenAI Robotics，

再到 OpenVINO Framework，

所有事件共同指向同一个方向：

未来AI竞争的核心不再只是理解信息，

而是理解世界并采取行动。

展望未来

未来几年，

Physical AI 很可能成为整个产业增长最快的方向之一。

世界模型、机器人系统、Agent框架、边缘推理芯片以及AI原生基础设施将共同构成下一代智能生态。

聊天机器人或许只是AI时代的第一阶段。

真正改变现实世界的，

将是那些能够感知环境、理解物理规律、规划任务并自主执行动作的智能体系统。

而从本周的十条新闻来看，

这场围绕 Physical AI 与 Autonomous Agent 的全球竞赛，

已经全面开始。