AI Daily | AI日报:谷歌推Gemini Diffusion,速度惊人; 汤道生:腾讯业务全面拥抱 AI; 谷歌Veo 3惊艳,AGI非只堆规模

146 阅读4分钟

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。

2025-05-22 资讯日报

新闻资讯

谷歌推Gemini Diffusion,速度惊人

谷歌:推出文本扩散模型Gemini Diffusion,12秒生成1万token,速度超Gemini 2.0 Flash - Lite。它能快速迭代、纠错,还可非因果推理,目前可申请体验。>阅读原文

汤道生:腾讯业务全面拥抱 AI

汤道生:生成式 AI 可用性质变,腾讯将加大投入,业务全面拥抱。以大模型、智能体等‘四个加速’打造‘好用的 AI’,混元已应用多行业,智能体在多场景落地。>阅读原文

谷歌Veo 3惊艳,AGI非只堆规模

谷歌Veo 3实测惊艳,能按提示词生成电影质感短片且音画同步。DeepMind CTO Koray称规模非AGI唯一要素,还需架构、算法等;Deep Think像多线程大脑推理,Veo 3实现声音匹配。>阅读原文

OpenAI API支持MCP革新开发

OpenAI:核心API Responses支持MCP,简化智能体开发,集中管理工具,保障安全。还更新图像生成等工具,引入后台模式等新功能,提升性能、降低成本。>阅读原文

OpenAI与Jony Ive推新公司「io」

OpenAI与苹果传奇设计大佬Jony Ive官宣新公司「io」。合作酝酿两年,现「io」并入OpenAI,Jony Ive主导设计,目标革新AI交互方式,让人期待新硬件。>阅读原文

OpenAI64亿收购io公司

OpenAI:以64亿美元收购乔尼・艾维的io公司,进军硬件领域。Sam Altman:伟大工具需技术与设计平衡,乔尼团队能做到。艾维:希望带来喜悦,感激参与合作。>阅读原文

AI编程神话被代码漏洞撕碎

研究:用57.6万代码样本发现超20%代码依赖不存在软件包,易引发供应链攻击。Meta和微软看好AI写代码,但AI生成代码或成安全灾难,开发者使用前需仔细检查。>阅读原文

谷歌I/O大会:AI产品大升级

谷歌桑达尔·皮查伊:在2025 I/O大会介绍多领域更新,Gemini 2.5系列升级,搜索推AI模式;DeepMind哈萨比斯:努力将Gemini扩展为“世界模型”;Greg Wayne:Astra是“通用人工智能助手概念车”。>阅读原文

ChatGPT转型成行动助手

OpenAI CPO Kevin Weil:ChatGPT将变身行动助手,为用户做事。当下模型成本是GPT - 4的500倍,未来会降API价格。模型效率突破靠硬件和算法,对AGI发展乐观。>阅读原文

英伟达让机器人做梦学技能

英伟达:推出DreamGen项目,让机器人‘做梦学习’。利用视频世界模型生成数据,提升机器人任务成功率,实现零样本泛化,还将助力GR00T - Dreams,加速开发进程。>阅读原文

OpenAI64亿收购Jony公司

OpenAI斥64亿美元收购Jony Ive的io公司,Jony任创意总监。2026年一代产品将推出,新AI产品或异于手机,还批Humane和Rabbit产品缺乏创新。>阅读原文

OpenAI 65亿收购Jony Ive创企

OpenAI:以近65亿美元收购Jony Ive创立的io公司。Jony Ive将与Altman联手,此前双方已合作两年。Altman期待带回用苹果电脑时的愉悦,Jony Ive感恩参与重要合作。>阅读原文

陶哲轩:Copilot复杂证明不靠谱

陶哲轩用GitHub Copilot挑战「ε - δ」极限证明,加法较顺利,减法卡壳,乘法彻底乱套。他认为复杂证明靠人脑,Copilot适合辅助做重复格式化工作。>阅读原文

腾讯SAGE测评:GPT - 4o情商夺冠

腾讯混元团队打造SAGE框架评估AI“EQ”。研究团队测评18个主流模型,GPT - 4o夺冠。实验显示SAGE评分与心理学评分、对话质量指标高度相关,还发现高情商模型不话痨,理想AI人设待出现。>阅读原文

产品应用

FaceAge:AI看脸预测癌症预后

Mass General Brigham团队:AI工具FaceAge可通过人脸照预测癌症患者生物年龄,脸显老的患者治疗效果差。但它有训练数据局限,离临床应用还有距离。>阅读原文

昆仑万维AI版Office首测惊艳

昆仑万维天工超级智能体:结合两大神器优点,带来AI版office。有超能六件套,卖点足、实力强,精准填补市场空白,冲击Product Hunt日榜第一,有望引领AI未来。>阅读原文

Skywork:免邀码的办公AI利器

花叔:AI圈新品爱用邀请码等套路很无聊。天工超级智能体(Skywork)不玩虚的,GAIA评测达SOTA。它优化办公三件套场景,信息溯源强,能干活但也受国内信息源限制。>阅读原文

谷歌Veo 3实现视频音画同步

谷歌发布Veo 3,首次实现AI视频音画同步,能自动生成与画面匹配的对话、音效。其基于DeepMind的V2A技术,虽时长仅8秒且面向美高级会员,但标志视频模型进入“视听一体”新阶段。>阅读原文

微容科技打破 MLCC 日韩垄断

当下 AI 赋能的机器人革命正盛,MLCC 是机器人核心系统技术底座。不同类型机器人对其性能要求有别,用量呈小尺寸、高电压与高容占比高趋势。微容科技构建矩阵,打破日韩技术垄断。>阅读原文

实测:Imagen4不如GPT4o和Imagen3

Aitrainee实测发现,Imagen4生成封面图审美差、文字表达不佳,在指令遵循和细节还原上不如GPT4o,甚至不如Imagen3,GPT4o在复杂指令处理上更具统治力。>阅读原文

黄叔:Trae搭建无“失忆”AI分身

AI产品黄叔:因Monica有局限,用Trae搭建AI分身,含四模块由智能体串起,体验超Monica,适合PDCA循环,还能与AI共同进化,大家可按四模块设计尝试。>阅读原文

华为两大黑科技破推理魔咒

华为:为解决MoE模型推理速度和延迟问题,推出FusionSpec和OptiQuant。前者将投机推理耗时降至1ms,后者支持灵活量化,双剑合璧开辟推理新路径。>阅读原文

谷歌Gemini Diffusion速度惊人

谷歌推出Gemini Diffusion,将扩散技术用于文本生成。每秒生成约1500个token,比Gemini 2.0 Flash - Lite快5倍,性能相当但速度优势大,或带来生成范式变革。>阅读原文

美图 Wink 视频编辑突围

美图 Wink:靠变美和画质修复与竞品差异化,面向泛用户。锚定国内和东南亚市场,以画质增强和 Live 图功能促增长,采用订阅与内购配合变现,成绩不错。>阅读原文

推荐文章

AI重塑SEO,专业社区价值凸显

量子位智库:大模型颠覆传统搜索,传统SEO被重构。近半AI回答引源自内容社区,专业话题占比更高,知乎被引多。SEO应向SPO转变,专业内容社区价值将提升。>阅读原文

微软 CPO:Prompt 是新 PRD

微软 CPO Aparna 称,Prompt 是 AI 时代的 PRD,Agent 是能自主执行任务的工具。产品经理要掌握 AI 本能式使用,做 0 到 1 产品别急扩规模,好产品至少满足技术、用户行为、商业模式两转折点。>阅读原文

李继刚:尝试故事式AI交流

李继刚:在好友启发下尝试「故事式」Prompt,它通过塑造含欲望和阻力的场让模型生成回复,还给出多个故事示例,如「字典疯子」等,可让大家体验新的AI交流方式。>阅读原文

开源动态

微软发布 Magentic - UI 系统

微软发布 Magentic - UI 多智能体 Web 操作系统,能自动浏览网页、处理数据,多智能体协同工作。界面透明可控,功能多,安装方便,适用于网页数据抓取、代码生成等多种场景。>阅读原文

Devstral编程超DeepSeek全家桶

Mistral AI和All Hands AI合作推出Devstral,参数24B,编程超DeepSeek全家桶,能在32G内存Mac运行。它针对GitHub Issue训练,可配合All Hands AI框架,现处研究预览版。>阅读原文

算法论文

MIT与谷歌提升LLM推理效率

MIT与谷歌团队:在PASTA研究中探索异步生成范式,开发PASTA - LANG标记语言,经双阶段训练得PASTA模型。实验表明其能平衡性能与质量,有良好可扩展性,突破效率极限。>阅读原文

英伟达AI让机器人「做梦」上岗

英伟达DreamGen项目:让机器人在「梦境世界」学习,合成数据大增,显著提升机器人任务成功率,实现行为和环境泛化,引入DreamGen Bench,数据扩展性价比高。>阅读原文

Meta:记忆层提升大模型输出质量

Meta研究人员:在transformer架构中加入可训练记忆层,能高效存储提取信息。通过将键表示为两个半键组合提升计算效率,测试显示其能提升大模型输出质量,降低成本。>阅读原文

BLIP3 - o:统一图像生解显实力

BLIP3 - o:融合自回归与扩散模型,统一图像表示与任务空间。训练后,在图像理解和生成任务表现佳,指令微调能显著提升提示对齐和视觉审美,减少生成伪影。>阅读原文

京东大模型研究登国际顶刊

京东探索研究院:提出大模型训练新系统与方法,经四大创新使推理提效30%、成本降70%。成果支撑JoyBuild平台,帮企业将通用模型转化专业模型,加速AI商业化落地。>阅读原文

KnowSelf让智能体感知知识边界

论文《Agentic Knowledgeable Self-awareness》提出 KnowSelf 方法:让智能体有「知识边界感知」能力,减少无效试错。实验表明其性能佳,还揭示智能体规划多方面影响,为智能体规划提供新思路。>阅读原文

微软&北大提出自适应推理模型

微软&北大:提出大型混合推理模型LHRMs,可自适应决定是否思考。经两阶段训练,用新指标评估,实验显示其推理和通用能力超现有模型,还提升了效率。>阅读原文

Qwen 与浙大推出新缩放定律

阿里与浙大合作提出 ParScale 定律,在不增参数下提升大模型能力。其通过并行流实现,后训练策略降成本,在强推理任务表现好,适合边缘设备,研究仍在进行。>阅读原文

何恺明团队MeanFlow颠覆AI生图

何恺明团队新论文提出MeanFlow生成模型,它无需预训练等,在ImageNet 256×256上FID分数达3.43,性能大幅提升,缩小了一步与多步模型差距,未来性能还能提升。>阅读原文

AutoRefine革新LLM推理方法

科学家给AI装“外接大脑”RAG,传统方法有缺陷。AutoRefine核心理念是“先筛选,再回答”,用强化学习训练。实验显示其在多方面碾压传统方法,未来或改变知识密集型任务解决方式。>阅读原文

清华港中文提出 MorphMark 解水印难题

清华&港中文团队:现有大模型水印技术有效力与质量的矛盾,提出 MorphMark 框架,依绿色列表 token 概率动态调强度,实验显示其水印效力、鲁棒性强,能平衡效力与质量。>阅读原文

剑桥谷歌:图像推理准确率狂飙

剑桥、伦敦大学学院和谷歌团队:推出VPRL新范式,纯靠图像推理。实验显示视觉规划显著优于文本规划,VPRL准确率高、稳定性强,推动多模态推理向图像化发展。>阅读原文

人类偏好建模遵循Scaling Law

研究团队:人类偏好建模遵循Scaling Law,通过论坛数据训练发现测试损失规律,提出WorldPM。偏好建模可扩展,主观评估复杂,WorldPM是偏好微调好起点,未来应让模型捕捉偏好复杂性。>阅读原文