AI Daily | AI日报：谷歌推Gemini Diffusion，速度惊人; 汤道生：腾讯业务全面拥抱 AI; 谷歌Veo 3惊艳，AGI非只堆规模

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

2025-05-22 资讯日报

新闻资讯

谷歌推Gemini Diffusion，速度惊人

谷歌：推出文本扩散模型Gemini Diffusion，12秒生成1万token，速度超Gemini 2.0 Flash - Lite。它能快速迭代、纠错，还可非因果推理，目前可申请体验。>阅读原文

汤道生：腾讯业务全面拥抱 AI

汤道生：生成式 AI 可用性质变，腾讯将加大投入，业务全面拥抱。以大模型、智能体等‘四个加速’打造‘好用的 AI’，混元已应用多行业，智能体在多场景落地。>阅读原文

谷歌Veo 3惊艳，AGI非只堆规模

谷歌Veo 3实测惊艳，能按提示词生成电影质感短片且音画同步。DeepMind CTO Koray称规模非AGI唯一要素，还需架构、算法等；Deep Think像多线程大脑推理，Veo 3实现声音匹配。>阅读原文

OpenAI API支持MCP革新开发

OpenAI：核心API Responses支持MCP，简化智能体开发，集中管理工具，保障安全。还更新图像生成等工具，引入后台模式等新功能，提升性能、降低成本。>阅读原文

OpenAI与Jony Ive推新公司「io」

OpenAI与苹果传奇设计大佬Jony Ive官宣新公司「io」。合作酝酿两年，现「io」并入OpenAI，Jony Ive主导设计，目标革新AI交互方式，让人期待新硬件。>阅读原文

OpenAI64亿收购io公司

OpenAI：以64亿美元收购乔尼・艾维的io公司，进军硬件领域。Sam Altman：伟大工具需技术与设计平衡，乔尼团队能做到。艾维：希望带来喜悦，感激参与合作。>阅读原文

AI编程神话被代码漏洞撕碎

研究：用57.6万代码样本发现超20%代码依赖不存在软件包，易引发供应链攻击。Meta和微软看好AI写代码，但AI生成代码或成安全灾难，开发者使用前需仔细检查。>阅读原文

谷歌I/O大会：AI产品大升级

谷歌桑达尔·皮查伊：在2025 I/O大会介绍多领域更新，Gemini 2.5系列升级，搜索推AI模式；DeepMind哈萨比斯：努力将Gemini扩展为“世界模型”；Greg Wayne：Astra是“通用人工智能助手概念车”。>阅读原文

ChatGPT转型成行动助手

OpenAI CPO Kevin Weil：ChatGPT将变身行动助手，为用户做事。当下模型成本是GPT - 4的500倍，未来会降API价格。模型效率突破靠硬件和算法，对AGI发展乐观。>阅读原文

英伟达让机器人做梦学技能

英伟达：推出DreamGen项目，让机器人‘做梦学习’。利用视频世界模型生成数据，提升机器人任务成功率，实现零样本泛化，还将助力GR00T - Dreams，加速开发进程。>阅读原文

OpenAI64亿收购Jony公司

OpenAI斥64亿美元收购Jony Ive的io公司，Jony任创意总监。2026年一代产品将推出，新AI产品或异于手机，还批Humane和Rabbit产品缺乏创新。>阅读原文

OpenAI 65亿收购Jony Ive创企

OpenAI：以近65亿美元收购Jony Ive创立的io公司。Jony Ive将与Altman联手，此前双方已合作两年。Altman期待带回用苹果电脑时的愉悦，Jony Ive感恩参与重要合作。>阅读原文

陶哲轩：Copilot复杂证明不靠谱

陶哲轩用GitHub Copilot挑战「ε - δ」极限证明，加法较顺利，减法卡壳，乘法彻底乱套。他认为复杂证明靠人脑，Copilot适合辅助做重复格式化工作。>阅读原文

腾讯SAGE测评：GPT - 4o情商夺冠

腾讯混元团队打造SAGE框架评估AI“EQ”。研究团队测评18个主流模型，GPT - 4o夺冠。实验显示SAGE评分与心理学评分、对话质量指标高度相关，还发现高情商模型不话痨，理想AI人设待出现。>阅读原文

产品应用

FaceAge：AI看脸预测癌症预后

Mass General Brigham团队：AI工具FaceAge可通过人脸照预测癌症患者生物年龄，脸显老的患者治疗效果差。但它有训练数据局限，离临床应用还有距离。>阅读原文

昆仑万维AI版Office首测惊艳

昆仑万维天工超级智能体：结合两大神器优点，带来AI版office。有超能六件套，卖点足、实力强，精准填补市场空白，冲击Product Hunt日榜第一，有望引领AI未来。>阅读原文

Skywork：免邀码的办公AI利器

花叔：AI圈新品爱用邀请码等套路很无聊。天工超级智能体（Skywork）不玩虚的，GAIA评测达SOTA。它优化办公三件套场景，信息溯源强，能干活但也受国内信息源限制。>阅读原文

谷歌Veo 3实现视频音画同步

谷歌发布Veo 3，首次实现AI视频音画同步，能自动生成与画面匹配的对话、音效。其基于DeepMind的V2A技术，虽时长仅8秒且面向美高级会员，但标志视频模型进入“视听一体”新阶段。>阅读原文

微容科技打破 MLCC 日韩垄断

当下 AI 赋能的机器人革命正盛，MLCC 是机器人核心系统技术底座。不同类型机器人对其性能要求有别，用量呈小尺寸、高电压与高容占比高趋势。微容科技构建矩阵，打破日韩技术垄断。>阅读原文

实测：Imagen4不如GPT4o和Imagen3

Aitrainee实测发现，Imagen4生成封面图审美差、文字表达不佳，在指令遵循和细节还原上不如GPT4o，甚至不如Imagen3，GPT4o在复杂指令处理上更具统治力。>阅读原文

黄叔：Trae搭建无“失忆”AI分身

AI产品黄叔：因Monica有局限，用Trae搭建AI分身，含四模块由智能体串起，体验超Monica，适合PDCA循环，还能与AI共同进化，大家可按四模块设计尝试。>阅读原文

华为两大黑科技破推理魔咒

华为：为解决MoE模型推理速度和延迟问题，推出FusionSpec和OptiQuant。前者将投机推理耗时降至1ms，后者支持灵活量化，双剑合璧开辟推理新路径。>阅读原文

谷歌Gemini Diffusion速度惊人

谷歌推出Gemini Diffusion，将扩散技术用于文本生成。每秒生成约1500个token，比Gemini 2.0 Flash - Lite快5倍，性能相当但速度优势大，或带来生成范式变革。>阅读原文

美图 Wink 视频编辑突围

美图 Wink：靠变美和画质修复与竞品差异化，面向泛用户。锚定国内和东南亚市场，以画质增强和 Live 图功能促增长，采用订阅与内购配合变现，成绩不错。>阅读原文

开源动态

微软发布 Magentic - UI 系统

微软发布 Magentic - UI 多智能体 Web 操作系统，能自动浏览网页、处理数据，多智能体协同工作。界面透明可控，功能多，安装方便，适用于网页数据抓取、代码生成等多种场景。>阅读原文

Devstral编程超DeepSeek全家桶

Mistral AI和All Hands AI合作推出Devstral，参数24B，编程超DeepSeek全家桶，能在32G内存Mac运行。它针对GitHub Issue训练，可配合All Hands AI框架，现处研究预览版。>阅读原文

算法论文

MIT与谷歌提升LLM推理效率

MIT与谷歌团队：在PASTA研究中探索异步生成范式，开发PASTA - LANG标记语言，经双阶段训练得PASTA模型。实验表明其能平衡性能与质量，有良好可扩展性，突破效率极限。>阅读原文

英伟达AI让机器人「做梦」上岗

英伟达DreamGen项目：让机器人在「梦境世界」学习，合成数据大增，显著提升机器人任务成功率，实现行为和环境泛化，引入DreamGen Bench，数据扩展性价比高。>阅读原文

Meta：记忆层提升大模型输出质量

Meta研究人员：在transformer架构中加入可训练记忆层，能高效存储提取信息。通过将键表示为两个半键组合提升计算效率，测试显示其能提升大模型输出质量，降低成本。>阅读原文

BLIP3 - o：统一图像生解显实力

BLIP3 - o：融合自回归与扩散模型，统一图像表示与任务空间。训练后，在图像理解和生成任务表现佳，指令微调能显著提升提示对齐和视觉审美，减少生成伪影。>阅读原文

京东大模型研究登国际顶刊

京东探索研究院：提出大模型训练新系统与方法，经四大创新使推理提效30%、成本降70%。成果支撑JoyBuild平台，帮企业将通用模型转化专业模型，加速AI商业化落地。>阅读原文

KnowSelf让智能体感知知识边界

论文《Agentic Knowledgeable Self-awareness》提出 KnowSelf 方法：让智能体有「知识边界感知」能力，减少无效试错。实验表明其性能佳，还揭示智能体规划多方面影响，为智能体规划提供新思路。>阅读原文

微软&北大提出自适应推理模型

微软&北大：提出大型混合推理模型LHRMs，可自适应决定是否思考。经两阶段训练，用新指标评估，实验显示其推理和通用能力超现有模型，还提升了效率。>阅读原文

Qwen 与浙大推出新缩放定律

阿里与浙大合作提出 ParScale 定律，在不增参数下提升大模型能力。其通过并行流实现，后训练策略降成本，在强推理任务表现好，适合边缘设备，研究仍在进行。>阅读原文

何恺明团队MeanFlow颠覆AI生图

何恺明团队新论文提出MeanFlow生成模型，它无需预训练等，在ImageNet 256×256上FID分数达3.43，性能大幅提升，缩小了一步与多步模型差距，未来性能还能提升。>阅读原文

AutoRefine革新LLM推理方法

科学家给AI装“外接大脑”RAG，传统方法有缺陷。AutoRefine核心理念是“先筛选，再回答”，用强化学习训练。实验显示其在多方面碾压传统方法，未来或改变知识密集型任务解决方式。>阅读原文

清华港中文提出 MorphMark 解水印难题

清华&港中文团队：现有大模型水印技术有效力与质量的矛盾，提出 MorphMark 框架，依绿色列表 token 概率动态调强度，实验显示其水印效力、鲁棒性强，能平衡效力与质量。>阅读原文

剑桥谷歌：图像推理准确率狂飙

剑桥、伦敦大学学院和谷歌团队：推出VPRL新范式，纯靠图像推理。实验显示视觉规划显著优于文本规划，VPRL准确率高、稳定性强，推动多模态推理向图像化发展。>阅读原文

人类偏好建模遵循Scaling Law

研究团队：人类偏好建模遵循Scaling Law，通过论坛数据训练发现测试损失规律，提出WorldPM。偏好建模可扩展，主观评估复杂，WorldPM是偏好微调好起点，未来应让模型捕捉偏好复杂性。>阅读原文