AI Daily | AI日报：SpAItial发布3D基础模型; 研究员：强化学习在大模型奏效; Google I/O大会发布诸多AI工具

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

2025-05-29 资讯日报

新闻资讯

SpAItial发布3D基础模型

SpAItial：获1300万美元融资，发布超逼真3D基础模型，可基于简单提示生成3D场景，在多领域有革新潜力，虽有竞争，但未来可期。>阅读原文

研究员：强化学习在大模型奏效

Anthropic 研究员 Sholto Douglas 和 Trenton Bricken 称 2025 年强化学习在大语言模型训练见效，Opus 4 能处理长任务。未来用户或管理多模型，几年内会有白领 AI 员工，还可能出现人类成「血肉机器人」的情况。>阅读原文

Google I/O大会发布诸多AI工具

Google：2025 I/O 大会开发者主旨演讲亮点足。推出 Google AI Studio 集成模型，有 Jules 等编程智能体，还发布 Gemma 系列模型，如 Gemma 3n、MedGemma 等，福利也升级。>阅读原文

皮查伊：AI 重塑谷歌与互联网

谷歌 CEO 皮查伊：AI 是平台级跃迁，正构建 AI - first 的 Google；搜索将成定制体验；Web 在转型非消亡；AI 是通用技术，将撬开多种业务可能性；面对争议，谷歌会坚持自身方向。>阅读原文

DeepSeek新版R1直追OpenAI o3

DeepSeek更新R1新版本DeepSeek - R1 - 0528，虽看似小版本升级，但实测表现惊人，在编程等能力上显著优化，直追OpenAI o3等闭源模型，是开源的一大胜利。>阅读原文

19岁少年用计算机炼出「神药」

19岁斯洛伐克少年Adam Kovalčík用计算机模拟设计新分子，新合成法或使抗RNA病毒药Galidesivir成本降6倍，还设计新分子，对新冠抑制效果或高5倍，获全球大奖。>阅读原文

Jeff Dean：AI 一年内取代初级工程师

Jeff Dean：一年内或有具初级工程师能力的 AI 系统；智能体潜力大；大模型领域少数通用强大模型与不同大小用途模型并存；AI 会深刻影响科研，改变科研流程。>阅读原文

Telegram官宣集成Grok AI

Telegram创始人Pavel Durov：与xAI合作，今夏让用户用Grok，获3亿资金及分成。此合作双赢，Telegram改善财务、增收入，xAI获用户与数据，挑战竞品。>阅读原文

Anthropic CEO：人幻觉比AI多？

Anthropic公司CEO称AI幻觉比人类少，Alex Vacca做实验验证，结果Claude表现最佳，识破两谎言；ChatGPT o4 - mini能学习纠错；Gemini全信虚构内容。AI幻觉难消，真相检测能力将成关键。>阅读原文

Rick Rubin：Vibe Coding 是编程朋克

Rick Rubin：Vibe Coding 是编程界朋克，有想法就能创造。但它也遭质疑，有人觉得它侮辱专业，也有人指出编程涉关键系统时‘差不多’不行，不过他仍看好 AI 未来。>阅读原文

2025：DeepSeek与OpenAI AI对决

2025开年全球AI竞争激烈，中国DeepSeek开源大模型打破壁垒，OpenAI闭源反击。各月双方不断推新，4月AI全民普及。新智元联合视频号推活动，10分钟助掌握科技风向。>阅读原文

英伟达财报创纪录，前景可期

英伟达：2025财年一季度财报创纪录，收入260.44亿美元，同比增262%。数据中心等多业务出色，推新硬软件。二季度预计营收280亿美元左右，有望延续增长。>阅读原文

Claude Opus 4 搞定 4 年 C++ Bug

30 年 FAANG 大神 ShelZuuz 被 C++“白鲸 Bug”折磨 4 年，Claude Opus 4 几小时就解决，此前 GPT - 4.1 等模型都不行。他认为其像初级开发者，但 AI 降本提效潜力大。>阅读原文

小扎重组Meta AI团队

小扎：面对竞争、Llama 4翻车和人才流失，重组Meta GenAI团队。LeCun：唱衰LLM，主张‘世界模型＋对比学习’，支持Llama开源。>阅读原文

大模型解数独正确率仅15%

Sakana AI公布大模型解数独排行榜，用Sudoku - Bench测试。结果大模型总体正确率低，9×9数独表现差，多数模型靠记忆而非推理，仅ChatGPT o3能解所有谜题。>阅读原文

DeepSeek R1升级为R1+

DeepSeek官方：DeepSeek R1完成小版本升级成R1+。PaperAgent实测近千行代码无错，网友测试见CoT变化、审美提升，大家猜测DeepSeek - R2也不远啦。>阅读原文

Wolfspeed危机，碳化硅行业何去何从？

近期消息称美国芯片商Wolfspeed或申请破产，凸显碳化硅行业产能过剩。虽当下盈利难，但前景好，国家也有支持。未来资源向头部集中，文中列举芯联集成、士兰微等多家国产企业发展成果。>阅读原文

产品应用

扣子空间上新播客功能

扣子空间5月27日上新播客功能，播客音频生成实现听觉可感知表达体验，适用于多场景。它还具备跨模态协作能力，引入MCP协议，免费开放核心功能，让AI成智能伙伴。>阅读原文

DeepSeek R1：中国AI的翻身之作

AI产品黄叔：新DeepSeek R1代码生成超Claude 3.7，前端审美达Claude 4水准，虽有不足，但接近Claude 4水平，或改变中国AI历史，有望让国内摆脱对国外AI工具依赖。>阅读原文

Claude 4破解4年顽固bug

资深C++程序员ShelZuuz：30年码龄花200小时没搞定‘白鲸bug’，GPT - 4.1等也失败，Claude Opus 4配合Code模式几小时就解决，凸显其强大编程能力。>阅读原文

DeepSeek R1小升级暗藏玄机

DeepSeek：R1模型完成小版本试升级，API不变。用户反馈语义、推理等能力提升，实测表现佳。此次升级或为安全考量、统一产品路线，后续官方动态值得关注。>阅读原文

华为盘古 Pro MoE 国内排名领先

华为盘古团队：提出 MoGE 解决传统 MoE 负载不均衡问题，基于此的盘古 Pro MoE 能在昇腾集群高效训练，推理性能优，在 SuperCLUE 排名高，让大模型回归实用。>阅读原文

简单提示词“骗”出 Cursor 系统提示词

作者：用简单提示词“骗”出 Cursor 系统提示词，此为 prompt injection 攻击表现。开发者要严肃对待系统设计安全隐患，如将提示词放系统层、处理内容、过滤用户输入。>阅读原文

AI助力文旅微缩景观创作

歸藏的 AI 工具箱：玩 Gpt - 4o 图片生成时，做出食品键盘图和食物城市微缩海报，用 Veo3 做动画，给出提示词，还提及 Gemini Pro 会员可在相关应用用 Veo3，邀大家尝试。>阅读原文

开源动态

斯坦福让Llama-1B毫秒级推理

斯坦福Hazy Research团队：当前主流LLM推理系统在特定场景下因拆分小CUDA kernel致低效，提出将前向传播整合为单一CUDA kernel的Megakernel，大幅提升推理性能。>阅读原文

CopilotKit：开源框架秒接AI

CopilotKit：一款基于React的开源框架，能让开发者用极简代码集成AI助手到Web应用。它有诸多优势和功能，适用于多种场景，比同类项目更具业务集成和工程落地优势。>阅读原文

小红书破解o3路线并开源

猕猴桃：OpenAI闭源后技术路线成谜，DeepSeek R1年初开源。小红书团队似破解o3谜题，用Agent框架让VLM边看图边思考，模型等全开源，为训练调优提供路线。>阅读原文

ACI.dev：简化Agent工具集成

Aipotheosis Labs的ACI.dev项目：为AI Agent提供标准化基础设施，集成超600种工具，有认证授权等机制，降低构建Agent门槛，对企业级应用集成有示范意义。>阅读原文

字节开源文档解析模型Dolphin

字节跳动：开源多模态模型Dolphin，采用两阶段机制，兼顾精准性与效率，能输出结构化内容，适用于学术论文整理、合同结构提取等场景，降低复杂文档解析门槛。>阅读原文

蚂蚁开源揭秘大模型开发趋势

蚂蚁开源发布报告，揭示大模型开发生态像黑客松，项目更迭快。AI Search 没落、AI Coding 火热，Agent 框架走向理性，未来 AI 开发助手有发展但需人监督，应用向微服务化演进。>阅读原文

LocAgent：代码定位新神器来袭

OpenHands 等团队：发布代码定位新神器 LocAgent，准确率逼近 Claude 3.5、成本降 86%。它解析代码库为图，结合工具接口和 Agent 推理，开源微调模型性价比高，还提升问题解决率。>阅读原文

DeepSeek-R1更新，性能提升引期待

DeepSeek：R1推理模型升级到0528版本。新版参数量大，性能提升明显，在基准测试成绩好，网友实测代码能力强，但有过度思考问题，大家期待R2推出。>阅读原文

Jina AI开源向量测试工具

Jina AI推出氛围测试工具Correlations，可生成热图展示内容相似度，支持多种交互。适用于内容去重、验证引文等，已在GitHub开源，能辅助开发者调试优化向量模型。>阅读原文

新版DeepSeek - R1开源性能强

新智元：新版DeepSeek - R1开源，性能逼近o4 - mini，编程超Claude 4 Sonnet。它有深度推理等亮点，实测性能大幅提升，复杂推理表现佳，算力也有针对性提高。>阅读原文

蚂蚁：开源生态低代码逆袭

蚂蚁开源：大模型开发生态如黑客松，呈现七大趋势，应用层低代码成主流，基础设施层向量索引等在发展。从业者可争夺生态控制权或深耕场景，目标是为用户创造价值。>阅读原文

深大推出 CLR - Wire 曲线框生成法

深圳大学黄惠团队：推出 CLR - Wire 方法，将三维曲线框统一编码到连续潜空间，解决传统方法难题，实现高效生成与插值，在多实验中表现优异，不过可控生成与编辑待研究。>阅读原文

腾讯新模型让照片开口说话

腾讯混元与腾讯音乐：新模型 HunyuanVideo - Avatar 让照片“活”过来，支持多角色、情绪控制，单角色开源，技术创新解决难题，在多数据集表现好，还介绍了本地部署方法。>阅读原文

DeepSeek新模型R1-0528开源

DeepSeek团队：推出新模型R1-0528并开源。该模型基于旧版升级，架构和训练有改进，性能与o3相当，实测在多任务表现佳，可通过官方或OpenRouter API使用。>阅读原文

算法论文

阿里通义PARSCALE优化模型

阿里通义团队：提出PARSCALE新策略，将CFG并行思想拓展到全流程。1.6B模型等效4.4B，内存降95%，可用于现有模型，两阶段训练还能降成本。>阅读原文

港科港中文提出AdaCtrl推理法

港科与港中文：提出AdaCtrl解决LLM推理痛点。它有自适应和用户控制模式，经两阶段训练，在数据集测试效果好，未来有望拓展多领域。>阅读原文

InfoDeepSeek：智能体评估新基准

上海交大与华为诺亚实验室：推出InfoDeepSeek评估基准，弥补现有静态评估不足。实验显示，顶尖LLM在复杂任务表现平平，推理与检索需协同，还要关注‘检索干扰’等问题。>阅读原文

中科院新方法治大模型“想太多”

中科院自动化所联合鹏城实验室：提出AutoThink方法，通过省略号提示与多阶段强化学习，使大模型按需思考，解决过度思考问题，提升准确率还节省算力，成果将用于ScienceOne基座模型。>阅读原文

虚假奖励训练Qwen模型引关注

华盛顿大学等团队研究：用虚假奖励训练Qwen2.5 - Math - 7B可提升MATH - 500成绩。但虚假奖励对其他模型效果有限，建议未来RLVR研究在多模型验证，重视预训练推理模式影响。>阅读原文

虚假奖励让Qwen性能升25%

华盛顿大学团队实验发现，用Qwen模型对虚假奖励进行RLVR，MATH - 500准确率能提升约25%。虚假奖励有效或因激活代码推理，研究提示不要只盯着Qwen做研究。>阅读原文

香港大学：CoDA实现全身动作生成

香港大学：为解决物体操控动作生成挑战，提出CoDA框架，对三个专用扩散模型在噪声空间优化，用BPS统一表示提高精度，但该方法存在优化慢、泛化能力不足等局限。>阅读原文

Alita：成绩碾压OpenAI的智能体

编辑部：当前AI Agent依赖人工预设，能力受限。Alita少预设多进化，用MCP协议自我造工具，实验成绩碾压OpenAI，还能提升小模型性能，未来或推动AGI发展。>阅读原文

SearchAgent-X提升搜索智能体效率

南开与UIUC研究团队：提出SearchAgent-X框架，解决搜索智能体效率瓶颈。该框架提升吞吐量、降低延迟，不牺牲答案质量，为复杂AI Agent提供实践参考。>阅读原文

「错误奖励」让LLM推理暴涨

华盛顿大学等团队研究表明，「伪奖励」能让LLM推理性能提升，在Qwen模型上效果显著，但对Llama3、OLMo2等模型效果不佳，未来RLVR研究应在更多模型上验证。>阅读原文

JointDiT实现图生有声视频

人大与值得买科技团队：提出JointDiT框架实现图像到有声视频生成，解决音视频融合难题，实验效果佳，还将拓展至四模态建模。>阅读原文

CoT或致大模型推理能力停滞

研究人员：当前大模型推理能力评估有缺陷，多关注答案准度忽视步骤。实验显示 2023 - 2024 年模型推理提升停滞，进步靠提示工程，自底向上策略最有效。>阅读原文

    </p>

官网：www.AiReadingHub.com