AI 日报-2025年07月29日

2025年07月29日 AI 日报

温馨提示：以下内容由AI自动从网络获取总结生成，准确性需自行甄别

具身智能：从“觉醒”到安全，双重突破与潜在风险

商汤“悟能”具身智能平台重磅发布，破解数据瓶颈： 在WAIC大会上，商汤正式发布了具身智能平台“悟能”，该平台以世界模型为核心引擎，旨在解决当前具身智能领域面临的数据稀缺和泛化能力不足等痛点。它能够通过自然语言描述生成高度逼真、符合物理规则的多视角训练视频，极大提升了仿真数据输出效率，从而为机器人提供了强大的感知、导航和多模态交互能力，预示着机器人将从工具向“合作者”和“探索者”的角色转变。
波士顿动力首创“坐标系转移接口”，提升机器人泛化分层智能： 美国东北大学与波士顿动力RAI团队共同提出了HEP框架，其核心创新在于“坐标系转移接口”。该接口巧妙地将高层策略的泛化能力与低层策略的灵活性融合，使得机器人在少量数据下也能高效学习并实现强泛化能力。这一分层结构结合空间对称性和创新的体素编码器，显著提升了机器人在复杂操作任务中的鲁棒性和适应性。
AI管家安全漏洞引关注，首个家⽤具⾝智能安全评测基准发布： 上海人工智能实验室与北京航空航天大学联合发布了IS-Bench，这是首个专注于评估具身智能体与家用环境交互安全性的评测基准。该基准设计了150多个“安全杀机”场景，并采用动态全流程评估框架，结果显示当前视觉语言模型（VLM）驱动的家务助手安全完成率不足40%。这项研究揭示了具身智能在真实世界部署中潜在的安全隐患，强调了交互安全性和动态风险识别的重要性，为未来具身智能体的安全设计和伦理部署提供了关键指导。

大模型领域：多模态推理与智能体能力再升级

阶跃Step 3大模型惊艳WAIC，主打“多、开、好、省”： 阶跃星辰发布了新一代基础大模型Step 3，强调其在多模态理解、开源开放、优异性能和高效低成本方面的优势。该模型不仅能处理复杂的图文混排信息，实现从感知堆叠到逻辑融合的深度多模态推理，还在多个国际权威评测榜单上表现领先，并实现了300%的推理效率提升。这款模型的开源计划，有望进一步推动多模态AI在实际应用中的普及和发展。
智谱发布GLM-4.5旗舰模型，专为智能体应用打造： 智谱推出了新一代旗舰模型GLM-4.5及其轻量版GLM-4.5-Air，采用混合专家（MoE）架构，并针对智能体应用进行了优化。模型具备“思考模式”和“非思考模式”两种运行机制，以适应复杂推理和即时响应的不同需求。GLM-4.5在综合能力上达到了开源模型SOTA水平，尤其在代码智能体的人工评测中表现突出，其高速、低成本的API服务将极大降低智能体开发和部署的门槛。
Agent KB框架诞生，实现AI Agent跨模型经验共享： 来自OPPO、耶鲁大学等机构的研究团队联合发布了Agent KB框架，旨在通过构建共享经验池来解决不同AI Agent经验无法有效共享的难题。该框架利用“Reason-Retrieve-Refine”方案和“Teacher-Student”双阶段检索机制，使智能体能够从其他任务的成功经验中学习，显著提升了复杂推理和问题解决能力。在GAIA基准测试中，Agent KB的Pass@1指标提升了6.66%，为通用AI助手的开发开辟了新路径。
大模型参数优化新突破，CRFT大幅提升LLM推理性能： 一项已被ACL 2025接收的研究提出了“关键表征微调”（CRFT）方法，该方法通过信息流分析识别并优化大型语言模型（LLM）中的关键表征，在仅学习模型参数量0.016%的情况下，使LLaMA-2-7B模型在GSM8K数据集上的准确率提高了18.2%。这表明，通过对模型表征的精准干预而非简单堆砌参数，可以显著提升LLM在复杂推理任务中的性能，为参数高效微调提供了新的思路。
Qwen首次公开强化学习核心算法GSPO，超越传统方法： 通义千问团队首次披露了其强化学习新算法GSPO（Generalized Sequence-level Policy Optimization），该算法通过定义序列级别的重要性比率，并在序列层面执行优化，展现出比现有方法（如GRPO）更高的训练效率和稳定性，尤其解决了混合专家（MoE）模型在RL训练中的收敛问题。GSPO的发布，预示着未来大型模型的强化学习训练将更加高效、稳定，并为RL基础设施的简化提供了可能。

AI for X：跨界融合，赋能千行百业

“通用科研智能体”SciMaster发布，重塑科研范式： 上海交通大学、深势科技和上海算法创新院联合发布了全球首个“通用科研智能体”SciMaster，并依托其科学基座大模型Innovator。SciMaster旨在通过“读、算、做”构建透明、可控、可协作的智能研究生态，提供专家级深度调研能力、灵活的工具调用和干湿实验闭环支持，旨在将AI for Science的愿景变为现实，大幅提升科学发现的效率并降低研究门槛。
钛动科技发布首个全球营销AI Agent—Navos，赋能中国品牌出海： 钛动科技在WAIC大会上推出了首个全球营销AI Agent—Navos，该产品深度融合了产业大数据、多模态AI和出海营销场景，服务涵盖从营销策划到效果转化的全链路。Navos致力于帮助中国品牌实现从“Global”到“Glocal”的范式转变，通过AI技术克服语言和文化差异，实现大量优质内容的本地化持续输出，助力企业高效开拓全球市场。
腾讯游戏直播SDK适配鸿蒙系统，实现三端一码高效开发： 腾讯游戏电竞直播SDK团队宣布，其基于Kuikly跨端开发框架实现了鸿蒙系统的适配，使得SDK业务代码在Android、iOS、鸿蒙三端以及多个游戏App之间实现100%复用。这一方案大幅节省了多端开发和适配成本（预计节省50%以上人力），提升了开发效率，是鸿蒙生态建设和跨端开发趋势下的重要实践，展现了“求大同，存小异”的跨端开发范式。
OPENVELA开源操作系统发布工程师认证体系，破局物联网技术壁垒： 小米在2025中国互联网大会上正式发布了“openvela工程师认证”体系，系统总结了openvela开源操作系统的实践成果。作为小米AIoT操作系统Xiaomi Vela的全面开源版本，openvela旨在打破全球物联网技术壁垒，构建开放自主的生态系统。该认证体系的推出，标志着openvela生态建设迈向技术引领、人才驱动和产教融合的新阶段，为亿万级智能设备提供了核心底座。

AI算力与核心技术：芯片创新与算法优化共驱发展

后摩智能发布M50 AI芯片，实现业界最高能效比存算一体： 后摩智能推出了其潜心两年研发的M50 AI芯片，该芯片搭载了第二代SRAM-CIM（基于SRAM的存内计算）技术，并结合自研的第二代IPU（AI处理器）架构“天璇”，实现了业界领先的能效比。M50具备160TOPS@INT8的物理算力，典型功耗仅为10W，旨在让大模型算力变得像电力一样“随处可得、随取随用”，为端边侧大模型部署提供强大支撑，克服传统冯·诺依曼架构的“功耗墙”和“存储墙”问题。
阿里云操作系统控制台一招擒拿网络丢包，提升云端运维效率： 阿里云操作系统控制台推出了丢包诊断功能，能够快速定位和解决云上业务集群中存在的网络丢包问题。该功能通过深度诊断，排除iptable规则和内核丢包等常见原因，显著简化了复杂的网络故障排查过程，帮助客户快速恢复业务部署和稳定运行，有效控制了持续性成本消耗，展现了云服务在运维智能化方面的进步。
ICCV 2025论文提出SGCDet，重新定义多视图室内3D检测： 浙江大学等团队在ICCV 2025上发表SGCDet框架，提出自适应3D体素构建方法，解决了传统多视图室内3D目标检测中感受野受限和计算冗余的痛点。SGCDet通过几何与上下文感知聚合模块（包括可变形注意力机制和多视图注意力）和稀疏体素构建策略，大幅提升了多视图室内3D检测的效率和准确性，在多个权威数据集上达到SOTA性能，对于场景理解和机器人导航具有重要意义。
阿里提出Dens3R：统一3D几何预测基础模型，终结几何孤岛： 阿里巴巴与上海交通大学的研究者们推出了Dens3R，一个专为联合几何密集预测而生的3D基础模型。Dens3R通过统一框架显式建模不同几何属性间的结构关联，实现了从单视角到多视角输入的高度一致且精确的几何感知。其两阶段训练策略和位置插值旋转位置编码，使其在表面法线预测、单目深度预测和图像匹配等任务上表现卓越，有望成为3D重建领域的基础性工具。
ICML 2025论文ROME：新蒸馏方法提升模型鲁棒性，无需对抗训练： 北京航空航天大学、上海人工智能实验室等团队提出了ROME方法，首次将信息瓶颈理论引入数据集蒸馏任务，旨在显著提升模型在面对对抗攻击时的鲁棒性。该方法无需对抗训练，通过最小化输入数据与中间层表示的冗余信息，同时增强标签信息的有效性，实现了鲁棒性高达40%的提升。ROME的突破为安全关键型AI应用（如自动驾驶、医疗诊断）的数据效率和可靠性提供了重要保障。