AI Daily | AI日报:毕马威:企业猛增AI Agent试点; InfoQ发布推理模型评测报告; DeepSeek R1跃居全球第二

264 阅读4分钟

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。

2025-05-30 资讯日报

新闻资讯

毕马威:企业猛增AI Agent试点

毕马威报告:企业对AI Agent智能体试点热情高,应用场景广泛,技术、运营、风险部门最受益,但面临员工培训难题,企业通过选可信赖厂商等措施应对风险。>阅读原文

InfoQ发布推理模型评测报告

InfoQ研究中心:评测八款热门推理模型,发现多步推理是短板,不同模型在各维度表现有差异。推理模型正从‘单脑’变‘带工具多能体’,后续将跟踪多方向进展。>阅读原文

DeepSeek R1跃居全球第二

Artificial Analysis:DeepSeek R1升至全球第二,0528版与Google Gemini 2.5 Pro并列。强化学习显威,开源与闭源差距缩小,中美AI竞争进入并驾齐驱新阶段,网友热议不断。>阅读原文

DeepSeek R1升级成全球第二

DeepSeek官宣R1-0528升级,性能媲美o3等,还微调8B模型。其成全球第二大AI实验室及开源王者。启示有:开源闭源差距缩小,中美AI并驾齐驱,强化学习驱动进步。>阅读原文

国内EDA企业股价暴涨

海外 EDA 供应不稳定,国产 EDA 行业发展。华大九天等上市企业因传闻股价大涨,如华大九天涨 14.7%等。本文还盘点了华大九天、概伦电子等 33 家国内优秀 EDA 企业。>阅读原文

经济学人:AI未引发失业潮

经济学人指出,虽AI能力强让人们担心失业,但美国口译等领域就业增、年轻人失业率低、白领岗位未受冲击,全球就业强劲,或因AI使用率低和公司不裁员,不必恐慌。>阅读原文

马斯克公布SpaceX火星新计划

马斯克公布SpaceX火星新计划,目标在火星建城。星舰生产加速,技术有突破,明年或送机器人去火星探路,后续送人类并大量运物资,还将用Starlink变体通信。>阅读原文

Zochi论文登ACL并开启测试

Intology的AI科学家Zochi论文被ACL主会录用,开放Beta测试。其研究显示语言模型安全或有不足。Zochi成果多,如提出CS - ReFT、Siege框架等,论文质量远超其他AI系统。>阅读原文

英伟达财报亮眼但H20受限

英伟达2026财年Q1财报超预期,营收大增,数据中心与游戏业务创新高。但H20芯片受出口限制,损失扩大,二财季预计少收80亿美元,其在华份额也已减半。>阅读原文

首钢园推出“产业跃升计划”

首钢园推出“产业跃升计划”,构建“1+3+X”产业体系。专家各抒己见,刘腾飞称AI融合工业互联网可注入智能基因;曹巍看好机器人投资;张弥提出应对业务阶段差异之法。还签约构建企业全周期服务体系。>阅读原文

英伟达财报破纪录,新增长点凸显

英伟达2026财年Q1财报亮眼,营收和净利润破纪录。黄仁勋:AI推理爆发、与马斯克合作及欧洲AI扩张成新增长点,虽H20芯片有损失,仍对下季营收有信心。>阅读原文

英伟达市值超苹果,AI收入猛增

英伟达:虽此前被DeepSeek重创,但2025年第一季度收入、利润仍创纪录,达260.44亿美元和148.81亿美元,同比分别增262%和628%,二季度预计收入达280亿美元。>阅读原文

DeepSeek R1跻身全球AI实验室第二

Artificial Analysis:DeepSeek R1-0528超越多家跻身全球第二。其多方面性能提升,缩小开源与闭源差距,凸显强化学习重要,显示中美AI水平并驾齐驱。>阅读原文

产品应用

实测字节扣子空间,功能超强大

AI科技评论实测发现,字节跳动旗下Agent“扣子空间”新玩法一键生成播客很丝滑,还具备搜图、分析、写代码、开发网站等能力,兼具通用与低代码开发特点,是工作生活好帮手。>阅读原文

飞猪AI“问一问”:实用旅行规划神器

作者测试Agent产品多输出废话,飞猪“问一问”旅行Agent厉害,能生成实用规划,有表格、地图等,考虑全面细节足,还能找特价机票,作者六月将按此方案旅行。>阅读原文

DeepSeek-R1 升级,推理能力飙升

DeepSeek:R1 模型升级到 DeepSeek - R1 - 0528,投入更多算力提升思维深度与推理能力,还优化幻觉问题、增强创意写作等,API 同步更新,模型开源。>阅读原文

YouWare:AI Coding 新黑马

硅谷合伙人 Matt:新人群与方法或催生新软件形态。YouWare 创始人明超平:AI 时代需编程分享社区。YouWare 能极简部署、优化页面,虽有不足,但有望成行业黑马。>阅读原文

扣子空间播客功能完爆NotebookLM

作者实测后认为,扣子空间播客功能完爆NotebookLM,覆盖场景更大。它还能做旅行攻略、生成网站和PPT等,对MCP协议支持好,有90+成熟应用场景,AI红利才刚开始。>阅读原文

小鹏M03 Max重推智能化

何小鹏:MONA M03 Max推迟发布是为打磨智驾系统。它搭载高算力芯片,首发人机共驾。小鹏希望借此让消费者为智能化买单,使智能化成销量增长点。>阅读原文

华为Pangu Ultra MoE模型亮点多

华为盘古团队:Pangu Ultra MoE全流程在昇腾NPU训练。通过创新架构和方法解决训练难题,还在负载均衡、推理等方面优化,在评测集表现一流,兼顾计算成本与推理能力。>阅读原文

VAST升级Tripo Studio建模神器

VAST:Tripo Studio大升级,有一键拆建等四大功能,解决建模痛点,实现从‘给模型’到‘交成果’质变,让非专业人士也能完成全流程,重构商业逻辑。>阅读原文

DeepSeek R1代码能力逼近Claude 4

花叔:DeepSeek R1文本写作问题修复,代码能力提升,前端审美逼近Claude 4。文章给出写前端网页提示词及逻辑,不过它在复杂任务表现待测,对R2可抱期待。>阅读原文

波士顿动力Altas机器人升级

波士顿动力:Altas机器人升级,有3D感知和实时追踪能力,能应对人类干扰。其技术含2D、3D感知等。未来还将构建统一基础模型,推动感知与动作融合。>阅读原文

Genspark:Claude驱动Agent变革

Genspark联合创始人朱凯华:传统搜索工作流有局限,选Claude构建Super Agent,它能动态协调多模型,让处理复杂任务更高效,改变研究方式,自适应AI是未来。>阅读原文

人大与快手推出OmniSync唇同步技术

中国人大与快手:推出通用唇同步框架OmniSync,引入无需掩膜训练范式,有多项技术创新,能适应复杂场景,还建立AIGC - LipSync基准评估AI视频唇形同步。>阅读原文

剪映上线两款AI创作产品

剪映:新推「小云雀」和「剪小映」两款AI产品。「小云雀」功能丰富,能零门槛创作;「剪小映」细化智能成片,靠AI解析素材辅助剪辑,平衡效率与创意。>阅读原文

推荐文章

Rahul Suresh:AI系统设计新模式

Rahul Suresh称AI系统需设计模式,现有模式可解决构建和部署模型的挑战。介绍了提示和上下文、负责任的AI等5类模式,如少样本提示、输出防护栏等,还提及高级概念但未展开。>阅读原文

200行代码实现类GPT模型

思潜:以200行Python代码,从Bigram模型开始,逐渐加入多种机制实现完整GPT。虽目前参数袖珍,但解答了注意力等问题,后续将从分词器、数据训练等多方面优化模型。>阅读原文

AI 重塑保险行业格局

haina:保险业规模大但效率低,AI 适合处理其核心流程。很多 GenAI startup 围绕保险构建产品,还有 Harper、Corgi 等 AI-native 保险公司,它们有望以低人力实现业务闭环,推动行业变革。>阅读原文

Triton Fused Softmax性能解析

DefTruth:详细解析Triton Fused Softmax Kernel,指出其访存量仅为Naive Softmax的1/4,通过多级流水线提升性能,修复官方代码后测试显示带宽吞吐提升约4倍。>阅读原文

AI 时代产研人如何不被“优化”

AICon 直播邀嘉宾探讨产研人应对之策。嘉宾分享项目经验,指出 AI 编程有短板,难以取代程序员。还谈及产品上线障碍、商业化方向,提醒关注人类在 AGI 时代的核心边界。>阅读原文

层归一化:神经网络稳定器

文章称在神经网络里,层归一化可将每层输出标准化,像标准分计算,稳定训练。还通过可学习参数保留特征差异,它常与残差连接搭配,保障深层Transformer高效运行。>阅读原文

博主分享缓解AI焦虑之法

数字生命卡兹克:AI博主因追新、攀比焦虑,后发现大家因工具实用而兴奋。他认为应接受平凡,明确自身定位,找伙伴协作,以好奇学AI,莫与所有人竞争。>阅读原文

EfficientLLM:LLM效率测评实证

EfficientLLM项目对LLM效率测评,指出效率优化要权衡,最优策略因任务和模型规模变,相关技术可用于跨模态模型,成果将开源助从业者做决策。>阅读原文

七种提示工程技术全解析

搬砖程序员带你飞:提示工程有七种优化模式。简单任务选Zero-Shot;复杂推理用CoT或ToT;需外部知识选ReAct;长期学习考虑Reflexion;结构化流程任务用Graph Prompting,还可组合使用。>阅读原文

Doug Slater:依赖LLM加速工程师无能

Doug Slater:软件工程中过度依赖LLM会加速工程师无能。LLM无法取代人类批判性思维,在多方面存在风险,也无法掌握程序理论和抵抗程序熵,人类工程技能仍具长期价值。>阅读原文

API 网关与管理迈向 AI 时代

文章指出 API 网关与 API 管理起点、角色和内核不同,前者重运行时请求控制,后者重全生命周期治理。二者需协同,未来将向 AI 网关和 MCP Server 管理演进,Higress 将开源 MCP 管理能力。>阅读原文

王智远:揭秘算力与中国发展

王智远:以拼图喻算力,介绍通算、科算、智算、AI计算。因摩尔定律失效,工程师探索创新提升算力。算力生态含硬件、软件等。未来AI成算力市场核心,中国算力发展强劲。>阅读原文

AI难取代系统设计程序员

作者Danilo认为,‘AI会取代程序员’是误区,代码是负债,设计系统才是核心。NoCode、云计算等技术变革未取代人,而是重塑岗位,如今AI辅助开发也一样,真正有价值的是懂设计系统的人。>阅读原文

开源动态

飞桨发布PaddleOCR 3.0

飞桨团队:2025年5月20日发布PaddleOCR 3.0并开源。它提升精度,支持多类型识别,结合文心大模型4.5 Turbo。PP-StructureV3文档解析能力强,远超其他开源方案。>阅读原文

蚂蚁开源全景图揭秘大模型生态

蚂蚁集团开源团队:发布《2025大模型开源开发生态全景图》。大模型开源生态呈现七大趋势,如Agent框架热潮褪去、标准协议层竞争激烈、AI编程项目红火等,各赛道发展态势不一。>阅读原文

DeepSeek-R1-0528:实力堪比R2

DeepSeek-R1-0528 上线,在 LiveCodeBench 排第 4,性能逼近 o3 高级版。全球网友实测,它在游戏开发、数学推理等多方面表现出色,且完全开源,大家猜测这是为 R2 铺路。>阅读原文

DeepSeek R1更新性能逼近o3

DeepSeek 发布 DeepSeek - R1 - 0528 开启公测。用户反馈推理和输出有改进,但有人认为在抽象推理题上变弱、文本格式变差。它在基准测试表现近 o3(high),还在持续训练。>阅读原文

ThingsBoard:开源物联网平台之星

开源君:物联网构建有挑战,ThingsBoard来救场。它功能强大,能实现设备管理、数据可视化等,安装简单,是开发者的优秀选择。>阅读原文

DuckDB:替代SQLite的分析引擎

DuckDB是嵌入式OLAP数据库,由荷兰团队开发。它用列式存储和向量化查询引擎,性能超SQLite,功能丰富,可用于探索性分析等,成本低,能替代Pandas等。>阅读原文

Linear - MoE:线性与 MoE 结合开源

上海人工智能实验室团队:Linear - MoE 首次系统性实现线性序列建模与 MoE 结合并开源。实验显示它训练稳定、效率高、推理有优势且性能可扩展,未来将探索更多应用。>阅读原文

Video - Holmes:大模型视频推理全不及格

腾讯ARC Lab和香港城市大学:推出Video - Holmes测试大模型视频推理能力,规避现有痛点。测试里大模型全不及格,反映出其推理能力不足,相关资料代码已开源。>阅读原文

Anthropic开源大模型‘读脑’工具

Anthropic:开源电路追踪工具,能生成归因图谱,打开大模型‘黑箱’。还配交互前端和demo notebook,可追踪电路、可视化图谱、检验假设,已在多模型上展开研究。>阅读原文

斯坦福推Llama超级推理内核

斯坦福Hazy实验室:推出推理引擎「Megakernel」,把Llama - 1B前向传播塞进单个GPU内核,H100、B200上推理速度大幅提升,远超vLLM等,展现低延迟推理潜力。>阅读原文

阿里开源搜索AI Agent

阿里:凌晨开源自主搜索AI Agent WebAgent,能搜论文等信息,其WebDancer框架经数据构建、轨迹采样、监督微调、强化学习等阶段,实现复杂信息检索。>阅读原文

Deepseek R1 对决三大顶尖模型

作者:让 Deepseek-R1 0528 与 Claude Opus 4 等四个顶尖模型进行六个前端开发任务对决,Deepseek-R1 多数成绩出色,虽有小缺陷,但以低价格达到近乎相当效果,带来惊喜。>阅读原文

算法论文

华为S - GRPO让大模型推理提效

华为:提出S - GRPO方法,采用“串行分组 + 衰减奖励”设计,解决大模型推理“冗余思考”问题,在多个推理任务测评中,相比现有方法,兼顾正确性与效率,让推理提速、答案更精准。>阅读原文

英伟达Fast - dLLM推理提速27.6倍

英伟达等机构:推出Fast - dLLM,凭借分块KV缓存与置信度感知并行解码,在LLaDA上实现27.6倍端到端加速,准确率损失控制在2%内,可即插即用提升推理效率。>阅读原文

LLM+RL:虚假奖励提升模型效果?

编辑部:论文发现LLM+RL中随机或错误等虚假奖励能让Qwen模型性能提升,效果接近标准答案训练,原因是GRPO算法的剪切偏差,还提醒警惕Qwen中心化,建议用多样模型验证方法。>阅读原文

中国团队让 AI 有视觉想象力

中国团队:提出 Thinking with Generated Images,让 AI 像人一样脑补画面思考。其技术框架解决视觉推理局限,实验证明有效,未来有望在创造性设计、科学发现等领域突破。>阅读原文

Qwen3等大模型密码学评测惨败

上海AI Lab等团队:CipherBank评测显示,大模型在密码学领域推理能力差,即使Qwen3准确率也未破10%。模型怕长文本、噪音、数字转换,还依赖“提示”,未来需增强推理能力。>阅读原文

浙大校友复刻DeepSeek推理涌现

UC Berkeley团队:新方法Intuitor让大模型仅凭自身“自信”学会推理,无需外部奖励信号,在数学、代码任务表现佳,还能降低“奖励黑客”风险。>阅读原文

ICML新研究:多智能体失败归因

ICML 2025 Spotlight 论文:多智能体系统失败难诊断,提出「自动化失败归因」。构建「Who&When」数据集,设计三种方法评估,现有方法效果有限,但研究将助力打造更可靠多 Agent 协作系统。>阅读原文

ZeroSearch激活LLM检索能力

通义实验室和北大:提出 ZeroSearch 框架,无需真实搜索激活 LLM 检索能力,降低 88%成本。大量实验显示,不同参数规模模型效果佳,有良好泛化、适应和扩展性。>阅读原文

Alita:Agent自我进化新突破

论文提出 Agent 主动创造解决 MCP 工具实现自我进化。Alita 通过试错探索创造工具,还提出‘Agent 蒸馏’,其生成的 MCP 用于‘manus’,证明智能体能力迁移可能。>阅读原文

邵林团队提出机器人装配新框架

NUS 邵林团队:提出 Manual2Skill 框架,让机器人从说明书学装配技能,解决现有方法依赖大量数据和计算资源问题,实验表明其在多方面超基线方法,还能零样本扩展。>阅读原文

其他

1. 自动驾驶大牛创业世界模型

Odyssey由自动驾驶大牛创立,其AI能40毫秒/帧实时生成视频,无需游戏引擎,玩家可交互。虽处早期预览版,但有潜力,世界模型或成兵家必争之地。>阅读原文

    </p>
    

官网:www.AiReadingHub.com