AI Daily | AI日报：毕马威：企业猛增AI Agent试点; InfoQ发布推理模型评测报告; DeepSeek R1跃居全球第二

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

2025-05-30 资讯日报

新闻资讯

毕马威：企业猛增AI Agent试点

毕马威报告：企业对AI Agent智能体试点热情高，应用场景广泛，技术、运营、风险部门最受益，但面临员工培训难题，企业通过选可信赖厂商等措施应对风险。>阅读原文

InfoQ发布推理模型评测报告

InfoQ研究中心：评测八款热门推理模型，发现多步推理是短板，不同模型在各维度表现有差异。推理模型正从‘单脑’变‘带工具多能体’，后续将跟踪多方向进展。>阅读原文

DeepSeek R1跃居全球第二

Artificial Analysis：DeepSeek R1升至全球第二，0528版与Google Gemini 2.5 Pro并列。强化学习显威，开源与闭源差距缩小，中美AI竞争进入并驾齐驱新阶段，网友热议不断。>阅读原文

DeepSeek R1升级成全球第二

DeepSeek官宣R1-0528升级，性能媲美o3等，还微调8B模型。其成全球第二大AI实验室及开源王者。启示有：开源闭源差距缩小，中美AI并驾齐驱，强化学习驱动进步。>阅读原文

国内EDA企业股价暴涨

海外 EDA 供应不稳定，国产 EDA 行业发展。华大九天等上市企业因传闻股价大涨，如华大九天涨 14.7%等。本文还盘点了华大九天、概伦电子等 33 家国内优秀 EDA 企业。>阅读原文

经济学人：AI未引发失业潮

经济学人指出，虽AI能力强让人们担心失业，但美国口译等领域就业增、年轻人失业率低、白领岗位未受冲击，全球就业强劲，或因AI使用率低和公司不裁员，不必恐慌。>阅读原文

马斯克公布SpaceX火星新计划

马斯克公布SpaceX火星新计划，目标在火星建城。星舰生产加速，技术有突破，明年或送机器人去火星探路，后续送人类并大量运物资，还将用Starlink变体通信。>阅读原文

Zochi论文登ACL并开启测试

Intology的AI科学家Zochi论文被ACL主会录用，开放Beta测试。其研究显示语言模型安全或有不足。Zochi成果多，如提出CS - ReFT、Siege框架等，论文质量远超其他AI系统。>阅读原文

英伟达财报亮眼但H20受限

英伟达2026财年Q1财报超预期，营收大增，数据中心与游戏业务创新高。但H20芯片受出口限制，损失扩大，二财季预计少收80亿美元，其在华份额也已减半。>阅读原文

首钢园推出“产业跃升计划”

首钢园推出“产业跃升计划”，构建“1+3+X”产业体系。专家各抒己见，刘腾飞称AI融合工业互联网可注入智能基因；曹巍看好机器人投资；张弥提出应对业务阶段差异之法。还签约构建企业全周期服务体系。>阅读原文

英伟达财报破纪录，新增长点凸显

英伟达2026财年Q1财报亮眼，营收和净利润破纪录。黄仁勋：AI推理爆发、与马斯克合作及欧洲AI扩张成新增长点，虽H20芯片有损失，仍对下季营收有信心。>阅读原文

英伟达市值超苹果，AI收入猛增

英伟达：虽此前被DeepSeek重创，但2025年第一季度收入、利润仍创纪录，达260.44亿美元和148.81亿美元，同比分别增262%和628%，二季度预计收入达280亿美元。>阅读原文

DeepSeek R1跻身全球AI实验室第二

Artificial Analysis：DeepSeek R1-0528超越多家跻身全球第二。其多方面性能提升，缩小开源与闭源差距，凸显强化学习重要，显示中美AI水平并驾齐驱。>阅读原文

产品应用

实测字节扣子空间，功能超强大

AI科技评论实测发现，字节跳动旗下Agent“扣子空间”新玩法一键生成播客很丝滑，还具备搜图、分析、写代码、开发网站等能力，兼具通用与低代码开发特点，是工作生活好帮手。>阅读原文

飞猪AI“问一问”：实用旅行规划神器

作者测试Agent产品多输出废话，飞猪“问一问”旅行Agent厉害，能生成实用规划，有表格、地图等，考虑全面细节足，还能找特价机票，作者六月将按此方案旅行。>阅读原文

DeepSeek-R1 升级，推理能力飙升

DeepSeek：R1 模型升级到 DeepSeek - R1 - 0528，投入更多算力提升思维深度与推理能力，还优化幻觉问题、增强创意写作等，API 同步更新，模型开源。>阅读原文

YouWare：AI Coding 新黑马

硅谷合伙人 Matt：新人群与方法或催生新软件形态。YouWare 创始人明超平：AI 时代需编程分享社区。YouWare 能极简部署、优化页面，虽有不足，但有望成行业黑马。>阅读原文

扣子空间播客功能完爆NotebookLM

作者实测后认为，扣子空间播客功能完爆NotebookLM，覆盖场景更大。它还能做旅行攻略、生成网站和PPT等，对MCP协议支持好，有90+成熟应用场景，AI红利才刚开始。>阅读原文

小鹏M03 Max重推智能化

何小鹏：MONA M03 Max推迟发布是为打磨智驾系统。它搭载高算力芯片，首发人机共驾。小鹏希望借此让消费者为智能化买单，使智能化成销量增长点。>阅读原文

华为Pangu Ultra MoE模型亮点多

华为盘古团队：Pangu Ultra MoE全流程在昇腾NPU训练。通过创新架构和方法解决训练难题，还在负载均衡、推理等方面优化，在评测集表现一流，兼顾计算成本与推理能力。>阅读原文

VAST升级Tripo Studio建模神器

VAST：Tripo Studio大升级，有一键拆建等四大功能，解决建模痛点，实现从‘给模型’到‘交成果’质变，让非专业人士也能完成全流程，重构商业逻辑。>阅读原文

DeepSeek R1代码能力逼近Claude 4

花叔：DeepSeek R1文本写作问题修复，代码能力提升，前端审美逼近Claude 4。文章给出写前端网页提示词及逻辑，不过它在复杂任务表现待测，对R2可抱期待。>阅读原文

波士顿动力Altas机器人升级

波士顿动力：Altas机器人升级，有3D感知和实时追踪能力，能应对人类干扰。其技术含2D、3D感知等。未来还将构建统一基础模型，推动感知与动作融合。>阅读原文

Genspark：Claude驱动Agent变革

Genspark联合创始人朱凯华：传统搜索工作流有局限，选Claude构建Super Agent，它能动态协调多模型，让处理复杂任务更高效，改变研究方式，自适应AI是未来。>阅读原文

人大与快手推出OmniSync唇同步技术

中国人大与快手：推出通用唇同步框架OmniSync，引入无需掩膜训练范式，有多项技术创新，能适应复杂场景，还建立AIGC - LipSync基准评估AI视频唇形同步。>阅读原文

剪映上线两款AI创作产品

剪映：新推「小云雀」和「剪小映」两款AI产品。「小云雀」功能丰富，能零门槛创作；「剪小映」细化智能成片，靠AI解析素材辅助剪辑，平衡效率与创意。>阅读原文

开源动态

飞桨发布PaddleOCR 3.0

飞桨团队：2025年5月20日发布PaddleOCR 3.0并开源。它提升精度，支持多类型识别，结合文心大模型4.5 Turbo。PP-StructureV3文档解析能力强，远超其他开源方案。>阅读原文

蚂蚁开源全景图揭秘大模型生态

蚂蚁集团开源团队：发布《2025大模型开源开发生态全景图》。大模型开源生态呈现七大趋势，如Agent框架热潮褪去、标准协议层竞争激烈、AI编程项目红火等，各赛道发展态势不一。>阅读原文

DeepSeek-R1-0528：实力堪比R2

DeepSeek-R1-0528 上线，在 LiveCodeBench 排第 4，性能逼近 o3 高级版。全球网友实测，它在游戏开发、数学推理等多方面表现出色，且完全开源，大家猜测这是为 R2 铺路。>阅读原文

DeepSeek R1更新性能逼近o3

DeepSeek 发布 DeepSeek - R1 - 0528 开启公测。用户反馈推理和输出有改进，但有人认为在抽象推理题上变弱、文本格式变差。它在基准测试表现近 o3（high），还在持续训练。>阅读原文

ThingsBoard：开源物联网平台之星

开源君：物联网构建有挑战，ThingsBoard来救场。它功能强大，能实现设备管理、数据可视化等，安装简单，是开发者的优秀选择。>阅读原文

DuckDB：替代SQLite的分析引擎

DuckDB是嵌入式OLAP数据库，由荷兰团队开发。它用列式存储和向量化查询引擎，性能超SQLite，功能丰富，可用于探索性分析等，成本低，能替代Pandas等。>阅读原文

Linear - MoE：线性与 MoE 结合开源

上海人工智能实验室团队：Linear - MoE 首次系统性实现线性序列建模与 MoE 结合并开源。实验显示它训练稳定、效率高、推理有优势且性能可扩展，未来将探索更多应用。>阅读原文

Video - Holmes：大模型视频推理全不及格

腾讯ARC Lab和香港城市大学：推出Video - Holmes测试大模型视频推理能力，规避现有痛点。测试里大模型全不及格，反映出其推理能力不足，相关资料代码已开源。>阅读原文

Anthropic开源大模型‘读脑’工具

Anthropic：开源电路追踪工具，能生成归因图谱，打开大模型‘黑箱’。还配交互前端和demo notebook，可追踪电路、可视化图谱、检验假设，已在多模型上展开研究。>阅读原文

斯坦福推Llama超级推理内核

斯坦福Hazy实验室：推出推理引擎「Megakernel」，把Llama - 1B前向传播塞进单个GPU内核，H100、B200上推理速度大幅提升，远超vLLM等，展现低延迟推理潜力。>阅读原文

阿里开源搜索AI Agent

阿里：凌晨开源自主搜索AI Agent WebAgent，能搜论文等信息，其WebDancer框架经数据构建、轨迹采样、监督微调、强化学习等阶段，实现复杂信息检索。>阅读原文

Deepseek R1 对决三大顶尖模型

作者：让 Deepseek-R1 0528 与 Claude Opus 4 等四个顶尖模型进行六个前端开发任务对决，Deepseek-R1 多数成绩出色，虽有小缺陷，但以低价格达到近乎相当效果，带来惊喜。>阅读原文

算法论文

华为S - GRPO让大模型推理提效

华为：提出S - GRPO方法，采用“串行分组 + 衰减奖励”设计，解决大模型推理“冗余思考”问题，在多个推理任务测评中，相比现有方法，兼顾正确性与效率，让推理提速、答案更精准。>阅读原文

英伟达Fast - dLLM推理提速27.6倍

英伟达等机构：推出Fast - dLLM，凭借分块KV缓存与置信度感知并行解码，在LLaDA上实现27.6倍端到端加速，准确率损失控制在2%内，可即插即用提升推理效率。>阅读原文

LLM+RL：虚假奖励提升模型效果？

编辑部：论文发现LLM+RL中随机或错误等虚假奖励能让Qwen模型性能提升，效果接近标准答案训练，原因是GRPO算法的剪切偏差，还提醒警惕Qwen中心化，建议用多样模型验证方法。>阅读原文

中国团队让 AI 有视觉想象力

中国团队：提出 Thinking with Generated Images，让 AI 像人一样脑补画面思考。其技术框架解决视觉推理局限，实验证明有效，未来有望在创造性设计、科学发现等领域突破。>阅读原文

Qwen3等大模型密码学评测惨败

上海AI Lab等团队：CipherBank评测显示，大模型在密码学领域推理能力差，即使Qwen3准确率也未破10%。模型怕长文本、噪音、数字转换，还依赖“提示”，未来需增强推理能力。>阅读原文

浙大校友复刻DeepSeek推理涌现

UC Berkeley团队：新方法Intuitor让大模型仅凭自身“自信”学会推理，无需外部奖励信号，在数学、代码任务表现佳，还能降低“奖励黑客”风险。>阅读原文

ICML新研究：多智能体失败归因

ICML 2025 Spotlight 论文：多智能体系统失败难诊断，提出「自动化失败归因」。构建「Who&When」数据集，设计三种方法评估，现有方法效果有限，但研究将助力打造更可靠多 Agent 协作系统。>阅读原文

ZeroSearch激活LLM检索能力

通义实验室和北大：提出 ZeroSearch 框架，无需真实搜索激活 LLM 检索能力，降低 88%成本。大量实验显示，不同参数规模模型效果佳，有良好泛化、适应和扩展性。>阅读原文

Alita：Agent自我进化新突破

论文提出 Agent 主动创造解决 MCP 工具实现自我进化。Alita 通过试错探索创造工具，还提出‘Agent 蒸馏’，其生成的 MCP 用于‘manus’，证明智能体能力迁移可能。>阅读原文

邵林团队提出机器人装配新框架

NUS 邵林团队：提出 Manual2Skill 框架，让机器人从说明书学装配技能，解决现有方法依赖大量数据和计算资源问题，实验表明其在多方面超基线方法，还能零样本扩展。>阅读原文

其他

1. 自动驾驶大牛创业世界模型

Odyssey由自动驾驶大牛创立，其AI能40毫秒/帧实时生成视频，无需游戏引擎，玩家可交互。虽处早期预览版，但有潜力，世界模型或成兵家必争之地。>阅读原文

    </p>

官网：www.AiReadingHub.com