AI 日报-2025年07月29日

222 阅读10分钟

2025年07月29日 AI 日报

温馨提示:以下内容由AI自动从网络获取总结生成,准确性需自行甄别


具身智能:从“觉醒”到安全,双重突破与潜在风险

  1. 商汤“悟能”具身智能平台重磅发布,破解数据瓶颈:  在WAIC大会上,商汤正式发布了具身智能平台“悟能”,该平台以世界模型为核心引擎,旨在解决当前具身智能领域面临的数据稀缺和泛化能力不足等痛点。它能够通过自然语言描述生成高度逼真、符合物理规则的多视角训练视频,极大提升了仿真数据输出效率,从而为机器人提供了强大的感知、导航和多模态交互能力,预示着机器人将从工具向“合作者”和“探索者”的角色转变。
  2. 波士顿动力首创“坐标系转移接口”,提升机器人泛化分层智能:  美国东北大学与波士顿动力RAI团队共同提出了HEP框架,其核心创新在于“坐标系转移接口”。该接口巧妙地将高层策略的泛化能力与低层策略的灵活性融合,使得机器人在少量数据下也能高效学习并实现强泛化能力。这一分层结构结合空间对称性和创新的体素编码器,显著提升了机器人在复杂操作任务中的鲁棒性和适应性。
  3. AI管家安全漏洞引关注,首个家⽤具⾝智能安全评测基准发布:  上海人工智能实验室与北京航空航天大学联合发布了IS-Bench,这是首个专注于评估具身智能体与家用环境交互安全性的评测基准。该基准设计了150多个“安全杀机”场景,并采用动态全流程评估框架,结果显示当前视觉语言模型(VLM)驱动的家务助手安全完成率不足40%。这项研究揭示了具身智能在真实世界部署中潜在的安全隐患,强调了交互安全性和动态风险识别的重要性,为未来具身智能体的安全设计和伦理部署提供了关键指导。

大模型领域:多模态推理与智能体能力再升级

  1. 阶跃Step 3大模型惊艳WAIC,主打“多、开、好、省”:  阶跃星辰发布了新一代基础大模型Step 3,强调其在多模态理解、开源开放、优异性能和高效低成本方面的优势。该模型不仅能处理复杂的图文混排信息,实现从感知堆叠到逻辑融合的深度多模态推理,还在多个国际权威评测榜单上表现领先,并实现了300%的推理效率提升。这款模型的开源计划,有望进一步推动多模态AI在实际应用中的普及和发展。
  2. 智谱发布GLM-4.5旗舰模型,专为智能体应用打造:  智谱推出了新一代旗舰模型GLM-4.5及其轻量版GLM-4.5-Air,采用混合专家(MoE)架构,并针对智能体应用进行了优化。模型具备“思考模式”和“非思考模式”两种运行机制,以适应复杂推理和即时响应的不同需求。GLM-4.5在综合能力上达到了开源模型SOTA水平,尤其在代码智能体的人工评测中表现突出,其高速、低成本的API服务将极大降低智能体开发和部署的门槛。
  3. Agent KB框架诞生,实现AI Agent跨模型经验共享:  来自OPPO、耶鲁大学等机构的研究团队联合发布了Agent KB框架,旨在通过构建共享经验池来解决不同AI Agent经验无法有效共享的难题。该框架利用“Reason-Retrieve-Refine”方案和“Teacher-Student”双阶段检索机制,使智能体能够从其他任务的成功经验中学习,显著提升了复杂推理和问题解决能力。在GAIA基准测试中,Agent KB的Pass@1指标提升了6.66%,为通用AI助手的开发开辟了新路径。
  4. 大模型参数优化新突破,CRFT大幅提升LLM推理性能:  一项已被ACL 2025接收的研究提出了“关键表征微调”(CRFT)方法,该方法通过信息流分析识别并优化大型语言模型(LLM)中的关键表征,在仅学习模型参数量0.016%的情况下,使LLaMA-2-7B模型在GSM8K数据集上的准确率提高了18.2%。这表明,通过对模型表征的精准干预而非简单堆砌参数,可以显著提升LLM在复杂推理任务中的性能,为参数高效微调提供了新的思路。
  5. Qwen首次公开强化学习核心算法GSPO,超越传统方法:  通义千问团队首次披露了其强化学习新算法GSPO(Generalized Sequence-level Policy Optimization),该算法通过定义序列级别的重要性比率,并在序列层面执行优化,展现出比现有方法(如GRPO)更高的训练效率和稳定性,尤其解决了混合专家(MoE)模型在RL训练中的收敛问题。GSPO的发布,预示着未来大型模型的强化学习训练将更加高效、稳定,并为RL基础设施的简化提供了可能。

AI for X:跨界融合,赋能千行百业

  1. “通用科研智能体”SciMaster发布,重塑科研范式:  上海交通大学、深势科技和上海算法创新院联合发布了全球首个“通用科研智能体”SciMaster,并依托其科学基座大模型Innovator。SciMaster旨在通过“读、算、做”构建透明、可控、可协作的智能研究生态,提供专家级深度调研能力、灵活的工具调用和干湿实验闭环支持,旨在将AI for Science的愿景变为现实,大幅提升科学发现的效率并降低研究门槛。
  2. 钛动科技发布首个全球营销AI Agent—Navos,赋能中国品牌出海:  钛动科技在WAIC大会上推出了首个全球营销AI Agent—Navos,该产品深度融合了产业大数据、多模态AI和出海营销场景,服务涵盖从营销策划到效果转化的全链路。Navos致力于帮助中国品牌实现从“Global”到“Glocal”的范式转变,通过AI技术克服语言和文化差异,实现大量优质内容的本地化持续输出,助力企业高效开拓全球市场。
  3. 腾讯游戏直播SDK适配鸿蒙系统,实现三端一码高效开发:  腾讯游戏电竞直播SDK团队宣布,其基于Kuikly跨端开发框架实现了鸿蒙系统的适配,使得SDK业务代码在Android、iOS、鸿蒙三端以及多个游戏App之间实现100%复用。这一方案大幅节省了多端开发和适配成本(预计节省50%以上人力),提升了开发效率,是鸿蒙生态建设和跨端开发趋势下的重要实践,展现了“求大同,存小异”的跨端开发范式。
  4. OPENVELA开源操作系统发布工程师认证体系,破局物联网技术壁垒:  小米在2025中国互联网大会上正式发布了“openvela工程师认证”体系,系统总结了openvela开源操作系统的实践成果。作为小米AIoT操作系统Xiaomi Vela的全面开源版本,openvela旨在打破全球物联网技术壁垒,构建开放自主的生态系统。该认证体系的推出,标志着openvela生态建设迈向技术引领、人才驱动和产教融合的新阶段,为亿万级智能设备提供了核心底座。

AI算力与核心技术:芯片创新与算法优化共驱发展

  1. 后摩智能发布M50 AI芯片,实现业界最高能效比存算一体:  后摩智能推出了其潜心两年研发的M50 AI芯片,该芯片搭载了第二代SRAM-CIM(基于SRAM的存内计算)技术,并结合自研的第二代IPU(AI处理器)架构“天璇”,实现了业界领先的能效比。M50具备160TOPS@INT8的物理算力,典型功耗仅为10W,旨在让大模型算力变得像电力一样“随处可得、随取随用”,为端边侧大模型部署提供强大支撑,克服传统冯·诺依曼架构的“功耗墙”和“存储墙”问题。
  2. 阿里云操作系统控制台一招擒拿网络丢包,提升云端运维效率:  阿里云操作系统控制台推出了丢包诊断功能,能够快速定位和解决云上业务集群中存在的网络丢包问题。该功能通过深度诊断,排除iptable规则和内核丢包等常见原因,显著简化了复杂的网络故障排查过程,帮助客户快速恢复业务部署和稳定运行,有效控制了持续性成本消耗,展现了云服务在运维智能化方面的进步。
  3. ICCV 2025论文提出SGCDet,重新定义多视图室内3D检测:  浙江大学等团队在ICCV 2025上发表SGCDet框架,提出自适应3D体素构建方法,解决了传统多视图室内3D目标检测中感受野受限和计算冗余的痛点。SGCDet通过几何与上下文感知聚合模块(包括可变形注意力机制和多视图注意力)和稀疏体素构建策略,大幅提升了多视图室内3D检测的效率和准确性,在多个权威数据集上达到SOTA性能,对于场景理解和机器人导航具有重要意义。
  4. 阿里提出Dens3R:统一3D几何预测基础模型,终结几何孤岛:  阿里巴巴与上海交通大学的研究者们推出了Dens3R,一个专为联合几何密集预测而生的3D基础模型。Dens3R通过统一框架显式建模不同几何属性间的结构关联,实现了从单视角到多视角输入的高度一致且精确的几何感知。其两阶段训练策略和位置插值旋转位置编码,使其在表面法线预测、单目深度预测和图像匹配等任务上表现卓越,有望成为3D重建领域的基础性工具。
  5. ICML 2025论文ROME:新蒸馏方法提升模型鲁棒性,无需对抗训练:  北京航空航天大学、上海人工智能实验室等团队提出了ROME方法,首次将信息瓶颈理论引入数据集蒸馏任务,旨在显著提升模型在面对对抗攻击时的鲁棒性。该方法无需对抗训练,通过最小化输入数据与中间层表示的冗余信息,同时增强标签信息的有效性,实现了鲁棒性高达40%的提升。ROME的突破为安全关键型AI应用(如自动驾驶、医疗诊断)的数据效率和可靠性提供了重要保障。