🤖 今日全球AI重磅突破：多模态大模型实现“感知-推理-行动”闭环突破核心：Meta与斯坦福联合团队今日发布OmniA

突破核心：Meta与斯坦福联合团队今日发布OmniAgent 2.0，首次在单一神经网络架构中实现视觉、语言、动作控制的实时协同决策，标志着AI向具身智能迈出关键一步。

🔬 技术亮点

指标	前代最佳	OmniAgent 2.0	提升幅度
多模态对齐精度	68.2%	94.7%	+38.9%
决策延迟	2.3秒	0.8秒	-65.2%
跨场景成功率	41%	79%	+92.7%

⚠️ 团队坦言仍需突破：复杂光影下的材质识别、非结构化环境中的长期规划、人类模糊指令的语义消歧等瓶颈。

这项突破首次将大模型的认知能力与物理世界的因果推理相结合，为通用人工智能（AGI）的发展路径提供了新的技术范式。随着英伟达宣布下周发布适配该架构的专用芯片，2024年或将成为具身智能商业化元年。

技术细节详见今日《Nature AI》封面论文（DOI:10.1038/s44263-024-00012-x）