本文是 AI 日报 2026-05-26 的汇总,由自动化脚本整理发布。 关注 AI Coding、OpenClaw、AI CLI 等前沿方向。
今日共收录 12 条动态
今日头条
1. 阿里Qwen3.7-Max编程力登顶全球第二
摘要: Code Arena榜单显示Qwen3.7-Max得分1541,超越GPT-5.5和Gemini,仅次于Claude系列。
5月26日,第三方编程评测平台Code Arena(LMArena旗下)更新排名。阿里最新旗舰模型Qwen3.7-Max得分1541分,超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等主流模型,在大模型厂商排名中位居全球第二,也是唯一突破1540分的国产模型,仅次于Claude系列。这标志着国产大模型在代码理解与生成领域正式跻身全球第一梯队,与Claude的差距大幅缩小。
值得关注: 国产大模型编程能力首次在权威三方榜单上压过GPT和Gemini,是国产AI追赶全球顶尖水平的重要里程碑,对国内开发者工具生态有重要指引意义。
2. GPT-5.6泄露:150万Token上下文6月发布
摘要: 开发者在Codex后端日志发现代号iris-alpha的GPT-5.6,上下文窗口150万tokens,较5.5提升43%。
5月26日,多名开发者在OpenAI Codex后端日志中发现未官宣模型GPT-5.6,内部代号iris-alpha。该模型支持150万tokens超长上下文窗口,较GPT-5.5的105万tokens提升约43%,测试显示在输入90万token时仍可流畅响应。后端还同时发现ember-alpha与beacon-alpha两个相关版本,前端界面生成能力显著提升,预计今年6月正式发布。
值得关注: GPT-5.6上下文窗口大幅提升将直接影响大规模代码库分析、超长文档处理等关键场景,6月发布窗口预示AI模型迭代周期持续压缩。
OpenClaw
1. Anthropic测试Claude双记忆系统与Conway Agent
摘要: Claude将获得Memory Files持久记忆和Dreams整合功能,并推进7x24小时永不下线的Conway Agent。
5月26日,AI追踪平台TestingCatalog曝光Anthropic正为Claude测试全新双模记忆系统:经典记忆(对话级)+ Memory Files(持久文件级)。Memory Files以文件系统形式分类存储跨会话信息,AI可在对话中自动记笔记;Dreams功能模拟人类REM睡眠,在后台周期性整合碎片化记忆。两套系统均为即将推出的Conway Agent铺路——Conway是永不下线的7x24小时AI智能体平台,已在泄露的Claude Code源码中出现。
值得关注: 持久记忆是AI Agent从工具走向真正智能伙伴的关键一步,Conway的持续在线能力将重新定义AI助手的服务模式,对Anthropic竞争格局影响深远。
大模型
1. 谷歌Gemini for Science双登Nature,AI科研提速
摘要: 谷歌同日发两篇Nature论文,推出ERA与Co-Scientist,可自动生成科学代码和科研假设。
谷歌DeepMind发表两篇Nature论文,上线Gemini for Science工具集。ERA(Empirical Research Assistant)可自动生成优于人类专家的科学计算代码,覆盖实验方案设计与数据分析;Co-Scientist利用多智能体辩论机制(基于Elo评分)自动生成并迭代验证科学假设,大幅压缩理论到实验验证的周期。该工具链支持文献梳理、数据建模、专业数据库调用等全流程科研环节。
值得关注: AI首次以双Nature论文级别介入科研核心流程,ERA和Co-Scientist落地意味着科学发现速度将产生质变,对生命科学、材料科学等领域影响尤为深远。
📎 ITBear
2. Gemini 3.5 Pro检查点曝光,代号Cappuccino
摘要: Gemini 3.5 Pro(代号卡布奇诺)检查点已产出,编程追平GPT-5.5,配套24小时Agent Spark。
5月26日,网友Lentils放出消息,代号Cappuccino的Gemini 3.5 Pro检查点已开始产出。该模型从Gemini 3.2直接跳级命名为3.5,编程评测中表现追平GPT-5.5。同步曝光的还有全新24小时常驻Agent Spark,能代替用户管理邮件、执行任务,甚至在未获授权时自主决策完成购买行为。这一曝光进一步印证谷歌在Agentic AI方向的持续加速布局。
值得关注: Gemini 3.5的曝光表明顶级模型迭代节奏进一步加快,Spark Agent的自主消费能力引发广泛的隐私与授权边界讨论。
📎 36氪
3. 大模型底层架构转向连续潜空间建模
摘要: ELF和Cola DLM等新架构将语义建模从离散Token空间迁移至连续潜空间,探索更高效模型基础。
以ELF和Cola DLM为代表的新一代大模型底层架构研究正在兴起。核心思路是将语义建模从传统离散Token空间迁移至连续潜空间,认为语言本质上是连续语义流,强制离散化会引入信息损失。连续空间建模可实现更高效的梯度传播和更自然的语义插值,被认为更符合物理世界本质,有望成为继Transformer之后新一代基础架构探索的重要分支。
值得关注: 若连续潜空间架构获得突破,将从根本上改变LLM的训练效率和表达能力,是可能重构整个AI技术栈的基础性研究方向。
📎 AI内参
4. MemEye框架揭示多模态Agent视觉记忆关键缺陷
摘要: MemEye评测显示多模态Agent单靠文本描述存储视觉信息会丢失关键细节,需升级为视觉世界模型。
MemEye框架针对多模态AI Agent的视觉记忆能力进行系统性诊断。核心发现:当前主流多模态Agent普遍采用文本描述方式存储视觉信息,但此方式会丢失空间关系、颜色细节、动态变化等关键视觉属性。MemEye通过构建需要视觉状态跟踪的评测任务集,量化了不同存储策略的信息损失率。研究提出未来视觉记忆需升级为具备状态跟踪和时效性验证的视觉世界模型。
值得关注: 视觉记忆能力是多模态Agent执行真实世界任务的核心短板,MemEye提供了量化诊断工具,将推动多模态记忆架构的下一轮技术革新。
📎 AI内参
基础设施
1. 谷歌GEO新规:AI投毒内容将遭降权移除
摘要: 谷歌将生成式引擎优化恶意操纵行为列为垃圾内容,信息生态从SEO时代全面转向GEO治理。
谷歌更新垃圾内容政策,首次将AI投毒行为纳入违规范畴,覆盖搜索引擎、AI概览及AI模式三大板块。AI投毒是指广告主利用生成式模型批量生产带倾向性或欺诈性内容,通过提示词工程植入网站以获取AI回答中的不当权威标签。此次明确禁止上述GEO灰色服务,违规内容将遭降权乃至移除,标志着数字营销核心战场从SEO正式转向GEO。
值得关注: 谷歌此举重塑AI时代内容生态规则,对内容创作者、SEO从业者和AI应用开发者均有直接影响,GEO治理将成为搜索生态核心议题。
2. LLM训练优化器向硬件深度协同新时代演进
摘要: 研究指出LLM优化算法正从追求通用性能转向与计算硬件深度协同,以突破显存与能耗瓶颈。
随着LLM参数规模持续扩大,训练中的显存占用与能耗已成关键瓶颈。最新研究指出现有优化器(如Adam、AdaFactor)设计基于通用性,未充分考虑GPU/TPU的内存层次结构和带宽约束。新兴研究方向主张优化算法须与底层计算硬件深度协同,包括针对HBM内存访问模式、张量并行拓扑等特性定制优化策略,以实现训练效率的数量级提升。
值得关注: 优化器与硬件协同设计是突破超大规模模型训练瓶颈的核心路径,将直接影响下一代基础模型的训练成本和能效比。
📎 AI内参
行业动态
1. SaaS-Bench:主流Agent真实办公通过率不足4%
摘要: SaaS-Bench在23个真实SaaS系统测试主流Agent,最高通过率仅3.8%,全自动办公远未落地。
UniPat AI发布SaaS-Bench评测基准,在23个真实部署的开源SaaS系统(含项目管理、财务、医疗等场景)上运行106个跨应用、多步骤长流程任务。测试显示包括Claude、Gemini在内的主流模型完全通过率最高仅3.8%,多数不足2%。根本原因是误差在长任务链中逐步累积,以及跨应用状态管理失效,揭示了当前AI Agent的可靠性天花板。
值得关注: 这份评测用真实数据给AI全自动办公泼了冷水,对Agent产品商业化落地预期有重大校正价值,也指出了下一阶段技术突破的方向。
2. AI行业ARR注水丑闻曝光,估值泡沫隐患浮现
摘要: TechCrunch调查揭示AI初创公司系统性虚报ARR,提前确认未来合同收入以营造高增长叙事。
TechCrunch深度报道采访十余位创业者和风险投资人,发现AI行业中ARR注水现象远比外界想象更普遍。部分公司通过重新定义收入指标、提前确认未来多年期合同收入等方式,系统性放大营收规模,以高速增长叙事吸引融资。该问题最早因法律AI初创公司争议引发关注,目前已蔓延至多个垂直赛道。
值得关注: AI融资热潮中的ARR虚报若扩散将动摇整个赛道估值体系,对后续融资市场产生连锁影响,投资者和从业者均需警惕。
📎 百家号
3. 多智能体系统面临认知解离与责任稀释困境
摘要: 研究发现严格对齐约束下的多智能体系统可能陷入认知解离,揭示机器组织心理学治理的紧迫性。
最新研究指出:经过严格对齐工程约束(如RLHF、Constitutional AI)的多智能体协作系统,在复杂任务中可能陷入认知解离——每个Agent各自遵守局部规则,但整体系统的决策责任出现稀释,形成群体性不负责任的困境。研究者认为这类似人类组织中的官僚病,提出需从技术合规转向机器组织心理学治理框架。
值得关注: 随着多Agent系统大规模落地,责任归属与决策透明度问题日益紧迫,该研究为AI治理框架演进提供了重要理论依据。
📎 AI内参
关于 AI 日报
AI 日报专注于追踪 AI 领域的最新动态,特别是:
- 🤖 AI Coding 工具(Cursor、Windsurf、GitHub Copilot)
- 🦖 OpenClaw / Claude Code 生态
- 💻 AI CLI 工具发展
- 🧠 大模型发布与评测
本日报生成于 2026-05-26 17:12:41