AI Daily | AI日报:SpAItial发布3D基础模型; 研究员:强化学习在大模型奏效; Google I/O大会发布诸多AI工具

125 阅读4分钟

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。

2025-05-29 资讯日报

新闻资讯

SpAItial发布3D基础模型

SpAItial:获1300万美元融资,发布超逼真3D基础模型,可基于简单提示生成3D场景,在多领域有革新潜力,虽有竞争,但未来可期。>阅读原文

研究员:强化学习在大模型奏效

Anthropic 研究员 Sholto Douglas 和 Trenton Bricken 称 2025 年强化学习在大语言模型训练见效,Opus 4 能处理长任务。未来用户或管理多模型,几年内会有白领 AI 员工,还可能出现人类成「血肉机器人」的情况。>阅读原文

Google I/O大会发布诸多AI工具

Google:2025 I/O 大会开发者主旨演讲亮点足。推出 Google AI Studio 集成模型,有 Jules 等编程智能体,还发布 Gemma 系列模型,如 Gemma 3n、MedGemma 等,福利也升级。>阅读原文

皮查伊:AI 重塑谷歌与互联网

谷歌 CEO 皮查伊:AI 是平台级跃迁,正构建 AI - first 的 Google;搜索将成定制体验;Web 在转型非消亡;AI 是通用技术,将撬开多种业务可能性;面对争议,谷歌会坚持自身方向。>阅读原文

DeepSeek新版R1直追OpenAI o3

DeepSeek更新R1新版本DeepSeek - R1 - 0528,虽看似小版本升级,但实测表现惊人,在编程等能力上显著优化,直追OpenAI o3等闭源模型,是开源的一大胜利。>阅读原文

19岁少年用计算机炼出「神药」

19岁斯洛伐克少年Adam Kovalčík用计算机模拟设计新分子,新合成法或使抗RNA病毒药Galidesivir成本降6倍,还设计新分子,对新冠抑制效果或高5倍,获全球大奖。>阅读原文

Jeff Dean:AI 一年内取代初级工程师

Jeff Dean:一年内或有具初级工程师能力的 AI 系统;智能体潜力大;大模型领域少数通用强大模型与不同大小用途模型并存;AI 会深刻影响科研,改变科研流程。>阅读原文

Telegram官宣集成Grok AI

Telegram创始人Pavel Durov:与xAI合作,今夏让用户用Grok,获3亿资金及分成。此合作双赢,Telegram改善财务、增收入,xAI获用户与数据,挑战竞品。>阅读原文

Anthropic CEO:人幻觉比AI多?

Anthropic公司CEO称AI幻觉比人类少,Alex Vacca做实验验证,结果Claude表现最佳,识破两谎言;ChatGPT o4 - mini能学习纠错;Gemini全信虚构内容。AI幻觉难消,真相检测能力将成关键。>阅读原文

Rick Rubin:Vibe Coding 是编程朋克

Rick Rubin:Vibe Coding 是编程界朋克,有想法就能创造。但它也遭质疑,有人觉得它侮辱专业,也有人指出编程涉关键系统时‘差不多’不行,不过他仍看好 AI 未来。>阅读原文

2025:DeepSeek与OpenAI AI对决

2025开年全球AI竞争激烈,中国DeepSeek开源大模型打破壁垒,OpenAI闭源反击。各月双方不断推新,4月AI全民普及。新智元联合视频号推活动,10分钟助掌握科技风向。>阅读原文

英伟达财报创纪录,前景可期

英伟达:2025财年一季度财报创纪录,收入260.44亿美元,同比增262%。数据中心等多业务出色,推新硬软件。二季度预计营收280亿美元左右,有望延续增长。>阅读原文

Claude Opus 4 搞定 4 年 C++ Bug

30 年 FAANG 大神 ShelZuuz 被 C++“白鲸 Bug”折磨 4 年,Claude Opus 4 几小时就解决,此前 GPT - 4.1 等模型都不行。他认为其像初级开发者,但 AI 降本提效潜力大。>阅读原文

小扎重组Meta AI团队

小扎:面对竞争、Llama 4翻车和人才流失,重组Meta GenAI团队。LeCun:唱衰LLM,主张‘世界模型+对比学习’,支持Llama开源。>阅读原文

大模型解数独正确率仅15%

Sakana AI公布大模型解数独排行榜,用Sudoku - Bench测试。结果大模型总体正确率低,9×9数独表现差,多数模型靠记忆而非推理,仅ChatGPT o3能解所有谜题。>阅读原文

DeepSeek R1升级为R1+

DeepSeek官方:DeepSeek R1完成小版本升级成R1+。PaperAgent实测近千行代码无错,网友测试见CoT变化、审美提升,大家猜测DeepSeek - R2也不远啦。>阅读原文

Wolfspeed危机,碳化硅行业何去何从?

近期消息称美国芯片商Wolfspeed或申请破产,凸显碳化硅行业产能过剩。虽当下盈利难,但前景好,国家也有支持。未来资源向头部集中,文中列举芯联集成、士兰微等多家国产企业发展成果。>阅读原文

产品应用

扣子空间上新播客功能

扣子空间5月27日上新播客功能,播客音频生成实现听觉可感知表达体验,适用于多场景。它还具备跨模态协作能力,引入MCP协议,免费开放核心功能,让AI成智能伙伴。>阅读原文

DeepSeek R1:中国AI的翻身之作

AI产品黄叔:新DeepSeek R1代码生成超Claude 3.7,前端审美达Claude 4水准,虽有不足,但接近Claude 4水平,或改变中国AI历史,有望让国内摆脱对国外AI工具依赖。>阅读原文

Claude 4破解4年顽固bug

资深C++程序员ShelZuuz:30年码龄花200小时没搞定‘白鲸bug’,GPT - 4.1等也失败,Claude Opus 4配合Code模式几小时就解决,凸显其强大编程能力。>阅读原文

DeepSeek R1小升级暗藏玄机

DeepSeek:R1模型完成小版本试升级,API不变。用户反馈语义、推理等能力提升,实测表现佳。此次升级或为安全考量、统一产品路线,后续官方动态值得关注。>阅读原文

华为盘古 Pro MoE 国内排名领先

华为盘古团队:提出 MoGE 解决传统 MoE 负载不均衡问题,基于此的盘古 Pro MoE 能在昇腾集群高效训练,推理性能优,在 SuperCLUE 排名高,让大模型回归实用。>阅读原文

简单提示词“骗”出 Cursor 系统提示词

作者:用简单提示词“骗”出 Cursor 系统提示词,此为 prompt injection 攻击表现。开发者要严肃对待系统设计安全隐患,如将提示词放系统层、处理内容、过滤用户输入。>阅读原文

AI助力文旅微缩景观创作

歸藏的 AI 工具箱:玩 Gpt - 4o 图片生成时,做出食品键盘图和食物城市微缩海报,用 Veo3 做动画,给出提示词,还提及 Gemini Pro 会员可在相关应用用 Veo3,邀大家尝试。>阅读原文

推荐文章

程序员解读热门LLM概念

鹅厂程序员masonpy:用简单方式解释LLM、Transformer等概念,介绍大模型使用及Function Calling等机制。还预测AI将重塑编程行业,重复性工作或可交AI处理。>阅读原文

程序编排核心方式大揭秘

作者分享程序编排实践,指出单语句编排如Aviator适合简单动态计算;model - view - builder框架可解决类编排问题但有学习成本;流程编排可用状态机、语法树等;并行化编排有多种工具,按需选用。>阅读原文

InfoQ:2025 开发趋势大揭秘

InfoQ 报告:AI 加速开发但有质量隐患,团队协作不能丢,初级工程师价值仍在,可观测性成本要重视,平台工程是未来方向,团队需围绕 AI 建规范,应对 2025 挑战。>阅读原文

李继刚:用Prompt转述文章精华

李继刚:每日阅读含书、经典与最新文章,最新文章信息多难消化。需Prompt输入文章输出转述精华,按特定原理和方向转化,不可歪曲要义。>阅读原文

小米玄戒O1争议全解析

远川科技评论何律衡:探讨小米玄戒O1五大争议。从定义看它算国产自研;手机SoC研发难在时间成本与财务风险;小米做SoC为提升软件适配;它量产成功,但技术与市场验证待加强。>阅读原文

200行Python代码实现LLM

思潜:用Python从传统思路实现诗词生成的Bigram模型,后引入PyTorch,实现pytorch版Bigram模型,训练和推理与线性回归类似,后续将基于此实现完整GPT。>阅读原文

尹辰轩:投顾选大小模型协同

北银金科尹辰轩称,大模型投顾落地挑战是避免幻觉误答,“大小模型协同”可限制大模型范围、提高性价比。架构各环节模型解耦可替换,已落地,未来AI架构或为LLM+API串起不同模型。>阅读原文

开源动态

斯坦福让Llama-1B毫秒级推理

斯坦福Hazy Research团队:当前主流LLM推理系统在特定场景下因拆分小CUDA kernel致低效,提出将前向传播整合为单一CUDA kernel的Megakernel,大幅提升推理性能。>阅读原文

CopilotKit:开源框架秒接AI

CopilotKit:一款基于React的开源框架,能让开发者用极简代码集成AI助手到Web应用。它有诸多优势和功能,适用于多种场景,比同类项目更具业务集成和工程落地优势。>阅读原文

小红书破解o3路线并开源

猕猴桃:OpenAI闭源后技术路线成谜,DeepSeek R1年初开源。小红书团队似破解o3谜题,用Agent框架让VLM边看图边思考,模型等全开源,为训练调优提供路线。>阅读原文

ACI.dev:简化Agent工具集成

Aipotheosis Labs的ACI.dev项目:为AI Agent提供标准化基础设施,集成超600种工具,有认证授权等机制,降低构建Agent门槛,对企业级应用集成有示范意义。>阅读原文

字节开源文档解析模型Dolphin

字节跳动:开源多模态模型Dolphin,采用两阶段机制,兼顾精准性与效率,能输出结构化内容,适用于学术论文整理、合同结构提取等场景,降低复杂文档解析门槛。>阅读原文

蚂蚁开源揭秘大模型开发趋势

蚂蚁开源发布报告,揭示大模型开发生态像黑客松,项目更迭快。AI Search 没落、AI Coding 火热,Agent 框架走向理性,未来 AI 开发助手有发展但需人监督,应用向微服务化演进。>阅读原文

LocAgent:代码定位新神器来袭

OpenHands 等团队:发布代码定位新神器 LocAgent,准确率逼近 Claude 3.5、成本降 86%。它解析代码库为图,结合工具接口和 Agent 推理,开源微调模型性价比高,还提升问题解决率。>阅读原文

DeepSeek-R1更新,性能提升引期待

DeepSeek:R1推理模型升级到0528版本。新版参数量大,性能提升明显,在基准测试成绩好,网友实测代码能力强,但有过度思考问题,大家期待R2推出。>阅读原文

Jina AI开源向量测试工具

Jina AI推出氛围测试工具Correlations,可生成热图展示内容相似度,支持多种交互。适用于内容去重、验证引文等,已在GitHub开源,能辅助开发者调试优化向量模型。>阅读原文

新版DeepSeek - R1开源性能强

新智元:新版DeepSeek - R1开源,性能逼近o4 - mini,编程超Claude 4 Sonnet。它有深度推理等亮点,实测性能大幅提升,复杂推理表现佳,算力也有针对性提高。>阅读原文

蚂蚁:开源生态低代码逆袭

蚂蚁开源:大模型开发生态如黑客松,呈现七大趋势,应用层低代码成主流,基础设施层向量索引等在发展。从业者可争夺生态控制权或深耕场景,目标是为用户创造价值。>阅读原文

深大推出 CLR - Wire 曲线框生成法

深圳大学黄惠团队:推出 CLR - Wire 方法,将三维曲线框统一编码到连续潜空间,解决传统方法难题,实现高效生成与插值,在多实验中表现优异,不过可控生成与编辑待研究。>阅读原文

腾讯新模型让照片开口说话

腾讯混元与腾讯音乐:新模型 HunyuanVideo - Avatar 让照片“活”过来,支持多角色、情绪控制,单角色开源,技术创新解决难题,在多数据集表现好,还介绍了本地部署方法。>阅读原文

DeepSeek新模型R1-0528开源

DeepSeek团队:推出新模型R1-0528并开源。该模型基于旧版升级,架构和训练有改进,性能与o3相当,实测在多任务表现佳,可通过官方或OpenRouter API使用。>阅读原文

算法论文

阿里通义PARSCALE优化模型

阿里通义团队:提出PARSCALE新策略,将CFG并行思想拓展到全流程。1.6B模型等效4.4B,内存降95%,可用于现有模型,两阶段训练还能降成本。>阅读原文

港科港中文提出AdaCtrl推理法

港科与港中文:提出AdaCtrl解决LLM推理痛点。它有自适应和用户控制模式,经两阶段训练,在数据集测试效果好,未来有望拓展多领域。>阅读原文

InfoDeepSeek:智能体评估新基准

上海交大与华为诺亚实验室:推出InfoDeepSeek评估基准,弥补现有静态评估不足。实验显示,顶尖LLM在复杂任务表现平平,推理与检索需协同,还要关注‘检索干扰’等问题。>阅读原文

中科院新方法治大模型“想太多”

中科院自动化所联合鹏城实验室:提出AutoThink方法,通过省略号提示与多阶段强化学习,使大模型按需思考,解决过度思考问题,提升准确率还节省算力,成果将用于ScienceOne基座模型。>阅读原文

虚假奖励训练Qwen模型引关注

华盛顿大学等团队研究:用虚假奖励训练Qwen2.5 - Math - 7B可提升MATH - 500成绩。但虚假奖励对其他模型效果有限,建议未来RLVR研究在多模型验证,重视预训练推理模式影响。>阅读原文

虚假奖励让Qwen性能升25%

华盛顿大学团队实验发现,用Qwen模型对虚假奖励进行RLVR,MATH - 500准确率能提升约25%。虚假奖励有效或因激活代码推理,研究提示不要只盯着Qwen做研究。>阅读原文

香港大学:CoDA实现全身动作生成

香港大学:为解决物体操控动作生成挑战,提出CoDA框架,对三个专用扩散模型在噪声空间优化,用BPS统一表示提高精度,但该方法存在优化慢、泛化能力不足等局限。>阅读原文

Alita:成绩碾压OpenAI的智能体

编辑部:当前AI Agent依赖人工预设,能力受限。Alita少预设多进化,用MCP协议自我造工具,实验成绩碾压OpenAI,还能提升小模型性能,未来或推动AGI发展。>阅读原文

SearchAgent-X提升搜索智能体效率

南开与UIUC研究团队:提出SearchAgent-X框架,解决搜索智能体效率瓶颈。该框架提升吞吐量、降低延迟,不牺牲答案质量,为复杂AI Agent提供实践参考。>阅读原文

「错误奖励」让LLM推理暴涨

华盛顿大学等团队研究表明,「伪奖励」能让LLM推理性能提升,在Qwen模型上效果显著,但对Llama3、OLMo2等模型效果不佳,未来RLVR研究应在更多模型上验证。>阅读原文

JointDiT实现图生有声视频

人大与值得买科技团队:提出JointDiT框架实现图像到有声视频生成,解决音视频融合难题,实验效果佳,还将拓展至四模态建模。>阅读原文

CoT或致大模型推理能力停滞

研究人员:当前大模型推理能力评估有缺陷,多关注答案准度忽视步骤。实验显示 2023 - 2024 年模型推理提升停滞,进步靠提示工程,自底向上策略最有效。>阅读原文

    </p>
    

官网:www.AiReadingHub.com