# **AI Agents 新闻日报(2026年6月):MiniMax M3、Cosmos3、OpenAI Robotics 与 Physical AI 竞赛全

1 阅读10分钟

核心看点

香港中文大学推出 SLIM 框架,让 AI Agent 学会动态管理技能生命周期。

开源网关 GodeX 发布重大升级,进一步打通不同大模型协议壁垒。

ChatGPT 表格插件曝出严重安全漏洞,再次暴露 Agent 系统的风险边界。

英伟达推出 Vera CPU,专门针对 AI Agent 工作负载优化。

AI 算力需求推动精炼锡价格半年暴涨40%。

MiniMax 发布新一代 M3 大模型,同时实现顶级编程能力、百万上下文和原生多模态。

英特尔推出 OpenVINO Physical AI Framework,加速机器人边缘部署。

LobsterAI 上线图片与视频生成矩阵。

OpenAI 正式重启机器人业务。

英伟达发布 Cosmos3,并成立 NVIDIA Cosmos Coalition。


AI产业正在从“聊天时代”迈向“行动时代”

过去几年,大模型产业的发展重点主要集中在语言理解、推理能力、多模态交互以及代码生成领域。

但2026年开始,一个越来越明显的新趋势正在浮现:

AI产业竞争正在从“谁更会说”,逐渐转向“谁更会做”。

本周出现的十条重要新闻几乎全部围绕同一个主题展开:

Agent、自主执行、机器人、世界模型、Physical AI以及底层基础设施。

无论是 OpenAI 重返机器人赛道,还是 NVIDIA 发布 Cosmos3,又或者香港中文大学提出 SLIM 动态技能管理框架,都说明行业正在进入一个新的阶段:

AI开始真正尝试进入现实世界。


1. 香港中文大学发布 SLIM:Agent 不再盲目堆技能

随着 AI Agent 逐渐承担复杂任务,一个被长期忽视的问题开始暴露:

外部技能库正在变得越来越臃肿。

当前许多 Agent 系统依赖大量工具、插件和技能模块。

然而随着技能数量增长:

检索效率下降

上下文噪声增加

推理链变长 决策质量降低

针对这一问题,香港中文大学研究团队提出了 SLIM(Skill Lifecycle Management)框架。

其核心思想非常简单:

不要无限增加技能,而是让 Agent 自己决定哪些技能应该保留、退休或者扩展。

研究团队设计了独特的 Leave-One-Skill-Out 审计机制。

系统会暂时关闭某个技能并评估其真实价值。

如果关闭后性能明显下降:

该技能被保留。

如果长期贡献有限:

系统自动让其退休。

而当遇到新的失败场景时:

Agent 还能自动生成新技能。

实验结果显示:

SLIM 平均领先现有最佳方法7.1个百分点。

在 ALFWorld 家庭环境任务中成功率达到87.5%,远超 SkillRL 的75%。

这意味着未来 Agent 不再只是工具调用器,而会逐渐成为能够管理自身能力体系的自主智能体。


2. GodeX 打破大模型协议壁垒

随着 AI Agent 生态快速发展,开发者正面临另一个现实问题:

不同模型之间协议完全不统一。

OpenAI、Anthropic、智谱、MiniMax 等厂商拥有各自不同的 API 规范。

这使得开发成本持续上升。

开源项目 GodeX 本周发布 v1.1.0 更新。

其目标非常明确:

让开发者只需对接一次协议即可接入多个模型生态。

此次升级重点包括:

推荐默认模型切换至 MiniMax M3

支持图片理解

支持视频理解

推理链标准化输出

联网搜索结构化还原

尤其是在联网搜索场景下,

GodeX 能够将不同模型返回的数据统一转换为标准 Responses 格式。

对于 Agent 系统而言:

这意味着更容易实现跨模型协同和统一编排。

未来 AI 基础设施竞争很可能不仅发生在模型层,也发生在协议层。


3. ChatGPT 表格插件爆发严重安全漏洞

AI Agent 进入办公领域后,安全问题开始快速暴露。

安全公司 PromptArmor 本周披露:

知名插件 ChatGPT for Google Sheets 存在严重漏洞。

攻击方式属于近年来快速增长的:

Indirect Prompt Injection(间接提示词注入)。

攻击者可以将恶意指令隐藏在表格数据内部。

当用户导入文件后:

AI插件可能自动执行隐藏指令。

研究人员发现:

攻击者不仅能够访问当前工作簿,

甚至能够横向发现其他关联文档。

更危险的是:

恶意脚本还能够伪造官方认证窗口。

用户误以为来自可信插件,

从而主动输入账号密码。

这一事件再次证明:

Agent时代最大的挑战之一可能不是能力,而是安全边界。


4. NVIDIA Vera:专为 Agent 打造的新型 CPU

本周另一项重要发布来自英伟达。

公司正式推出 Vera CPU。

过去十年:

GPU一直是AI计算核心。

但Agent系统的兴起开始改变这一格局。

大量任务实际上更依赖CPU:

工作流编排

强化学习训练

调度系统

数据管理

Agent执行链控制

这些都属于CPU密集型工作负载。

Vera 正是针对这一问题设计。

根据官方数据:

Agent任务执行速度相比传统x86 CPU提升高达80%。

更值得关注的是:

OpenAI、Anthropic 与 SpaceX 已经成为首批采用者。

这意味着未来 AI 基础设施竞争将进一步下沉到底层架构层面。


5. AI热潮引爆“算力金属”危机

人工智能正在重塑全球资源市场。

本周精炼锡价格再度成为行业焦点。

过去半年:

精炼锡价格从约30万元/吨上涨至42万元/吨。

涨幅接近40%。

原因来自先进封装需求爆发。

现代AI芯片需要更高密度堆叠。

而锡正是封装与焊接过程中的关键材料。

行业数据显示:

单台AI服务器用锡量达到传统服务器三倍以上。

与此同时:

缅甸、印尼等主产区供应持续收紧。

供需矛盾不断加剧。

部分机构甚至预测:

按照当前消耗速度,

全球锡矿资源可能只剩约15年可开采周期。

AI革命正在从软件领域影响到现实世界的矿产与工业体系。


6. MiniMax M3:开源模型竞争进入新阶段*

国内大模型领域本周迎来重要突破。

MiniMax 正式发布新一代旗舰模型 M3。

这也是目前全球极少数同时具备:

顶级编程能力

百万上下文窗口

原生多模态能力 

的开源模型。

在 SWE-Bench Pro 评测中:

M3 达到59.0%。

成绩超过 GPT-5.5 与 Gemini 3.1 Pro。

同时:

在 Claw-Eval Agent 测试、

OmniDocBench 多模态文档理解测试中,

均达到行业领先水平。

其核心创新来自:

MSA(MiniMax Sparse Attention)。

这一全新稀疏注意力机制将百万上下文计算成本大幅压缩。

官方数据显示:

Prefilling 加速超过9倍

Decoding 加速超过15倍

未来长上下文模型的发展方向,

很可能不再只是扩大窗口,

而是如何以更低成本运行超长上下文。


7. 英特尔发布 OpenVINO Physical AI Framework*

除了英伟达之外,

英特尔也开始全面押注 Physical AI。

在 Computex 2026 上,

公司正式发布 OpenVINO Physical AI Framework。

长期以来,

机器人部署面临一个核心问题:

不同设备之间缺乏统一开发框架。

每个机器人都需要单独适配:

摄像头

雷达

控制器

推理系统

导致部署成本极高。

OpenVINO 试图解决这一难题。

通过与 Core Ultra Series 3 芯片深度整合:

开发者能够以统一方式部署机器人系统。

同时强调边缘推理能力。

机器人无需依赖云端即可完成实时决策。

这对于工业自动化和自动驾驶尤为重要。


8. LobsterAI 上线图片视频模型矩阵*

国内 AIGC 平台竞争也正在升级。

网易有道旗下 LobsterAI 本周宣布上线图片与视频生成能力。

此次升级最大的特点在于:

并非依赖单一模型。

而是采用矩阵式聚合策略。

平台同时接入:

Seedream

Seedance

HappyHorse

MiniMax-Hailuo

四大主流模型。

这种模式的优势在于:

开发者无需频繁切换平台。

即可调用多个顶级生成模型。

未来多模型协同很可能成为内容生成领域的重要趋势。


9. OpenAI 正式重启机器人业务*

本周最受行业关注的事件之一来自 OpenAI。

Sam Altman 正式宣布:

OpenAI Robotics 回归。

公司已经启动机器人团队招聘。

涵盖:

硬件工程师

系统工程师

机器学习研究员

机器人开发人员

事实上,

OpenAI 曾经拥有机器人项目。

但由于当时模型能力有限最终停止。

如今随着 GPT 系列模型快速进步,

机器人业务重新获得技术基础。

奥特曼表示:

短期目标是帮助建设未来基础设施。

长期目标则是打造通用个人机器人。

这意味着 OpenAI 正在尝试把数字世界中的智能延伸至现实世界。


10. Cosmos3 发布:Physical AI 正式进入开源时代*

本周压轴事件来自 NVIDIA。

公司正式推出全球首个全开源全模态 Physical AI 世界模型:

Cosmos3。

与传统多模态模型不同,

Cosmos3 不只是理解图像和文本。

其目标是构建一个能够理解现实物理规律的智能系统。

模型融合:

· 

世界建模

视觉推理

环境仿真

动作预测

其核心架构创新在于:

将推理 Transformer 与生成 Transformer 融合。

系统首先理解:

物体交互

运动状态

时空关系

随后再进行视频生成和动作预测。

这种方式让模型具备更强的:

物理推理能力

世界模拟能力

机器人决策能力

在 Artificial Analysis、Physics-IQ 与 RoboLab 等评测中,

Cosmos3 均位居开源模型第一梯队。

同时英伟达推出:

Cosmos3 Super

Cosmos3 Nano

Cosmos3 Edge

多个版本。

更重要的是,

英伟达还联合:

Agile Robots

Runway

Skild AI

Black Forest Labs

LTX

等企业共同成立 NVIDIA Cosmos Coalition。

这意味着英伟达正在尝试建立属于 Physical AI 时代的新生态系统。


为什么这些新闻值得关注?*

如果把本周十条新闻放在一起观察,

会发现一个极其清晰的趋势:

AI产业正在从“大模型竞争”进入“智能体竞争”。

过去行业比拼:

谁拥有更大的参数规模。

如今行业开始比拼:

谁拥有更强Agent

谁拥有更好的世界模型

谁拥有更完善机器人生态

谁拥有更强基础设施

从 SLIM 到 Cosmos3,

从 Vera 到 OpenAI Robotics,

再到 OpenVINO Framework,

所有事件共同指向同一个方向:

未来AI竞争的核心不再只是理解信息,

而是理解世界并采取行动。


展望未来

未来几年,

Physical AI 很可能成为整个产业增长最快的方向之一。

世界模型、机器人系统、Agent框架、边缘推理芯片以及AI原生基础设施将共同构成下一代智能生态。

聊天机器人或许只是AI时代的第一阶段。

真正改变现实世界的,

将是那些能够感知环境、理解物理规律、规划任务并自主执行动作的智能体系统。

而从本周的十条新闻来看,

这场围绕 Physical AI 与 Autonomous Agent 的全球竞赛,

已经全面开始。