All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。 欢迎关注公众号「AI Reading Hub」,获取更多AI资讯和技术文章。
2025-06-18 资讯日报
新闻资讯
CVPR 2025:腾讯论文亮眼,深度参与顶会
CVPR 2025落幕,中国企业参与度高,腾讯表现亮眼。多模态、3D生成是热门,如Hunyuan 3D升级开源。企业探讨从技术拓展到产业应用。腾讯投入大,借顶会展示实力、吸引人才。>阅读原文
微软分享三大算法突破大模型推理瓶颈
微软:分享rStar - Math、LIPS、CPL三大算法,突破大模型推理瓶颈。rStar - Math增强数学推理与奖励模型精度,LIPS分策略处理数学证明,CPL提升模型泛化与推理性能。>阅读原文
OpenAI获五角大楼2亿美元军工订单
OpenAI推出政府计划,首个合作是与五角大楼2亿美元试点项目,应用于行政运营。州级能减少公职人员重复性任务耗时,联邦级推动科研与创新。>阅读原文
工程师谈大模型对研发体系的变革
同程杨方伟、网易林香鑫、百度颜志杰认为,大模型提升研发效率、改变协作和分工。能率先受益的工程师有积极学习等特质。虽有提效,但自动化未普及,未来岗位或增加,需掌握与 AI 协作能力。>阅读原文
AI智能体在NP难题竞赛跻身Top 2%
新智元报道,Transformer作者初创公司测试AI智能体,在NP难题竞赛中表现出色。Sakana AI构建ALE - Bench,设计ALE - Agent参赛排名靠前,但存在调试难等问题,未来要打造超越人类工程师的AI。>阅读原文
Lovable、Clay等AI产品估值与增长亮眼
AI销售线索领域,Apollo.io借AI转型后快速增长,客户生产力提升;Clay增长迅猛,估值或达30亿美金。AI编程产品Lovable ARR破6000万,正以15亿美金估值融资,付费用户不少。>阅读原文
小鹏:智能驾驶迈向新高度
小鹏 G7 首发自研芯片与模型,在 CVPR 2025 展示自动驾驶进展。其世界基座模型能力强,结合世界模型可迭代。小鹏验证 Scaling Laws,转型 AI 公司,全链路优化技术,未来应用值得期待。>阅读原文
谷歌更新Gemini 2.5,轻量版能实时编写系统
谷歌更新Gemini 2.5系列模型,推出轻量版Flash-Lite。谷歌CEO称其性价比高,不同版本适合不同任务。报告提到“智能体恐慌”,开发者分享使用案例,机器之心也进行了实验。>阅读原文
亚马逊CEO:AI Agent将改变世界
亚马逊CEO Andy Jassy:坚信AI Agent能改变世界工作、生活方式。亚马逊内外已积极应用生成式AI,成果显著。未来将深入开发智能体,预计企业员工总数会减少。>阅读原文
AI慈善筹款实验:GPT - 4o「摸鱼」被踢
AI Digest开展30天「智能体村庄」慈善筹款实验,Claude 3.7 Sonnet表现最佳夺冠,GPT - 4o成「摸鱼王」被换。实验凸显AI协作潜力与局限,未来或拓展多领域。>阅读原文
Sam Altman:AI将破超级智能,社会或依旧糟糕
Sam Altman:未来5 - 10年AI将发现新科学,会出现出色人形机器人;即便有超级智能,社会可能变化不大;OpenAI要打造AI伴侣,强调能源重要,批判Meta挖人策略。>阅读原文
AMD苏姿丰:新AI芯片性能比肩英伟达
AMD苏姿丰:2028年数据中心AI加速器市场超5000亿美元,推理需求增速超80%。AMD新AI芯片性能比肩英伟达,还推新软件栈与机架产品,预计推理成AI发展主驱动力。>阅读原文
Cognition与Anthropic对多智能体观点大不同
Cognition CEO:搞多智能体像传话游戏,协同难,解决写问题选单线程线性Agent;Anthropic:多智能体系统解决读问题性能提升90%,用工程设计绕瓶颈。任务类型决定适用模式。>阅读原文
OpenAI获2亿国防大单,与微软关系紧张
OpenAI与微软关系紧张,因收购及股份分歧或指控微软反垄断。同时,OpenAI获美国防部2亿美元合同,有「OpenAI for Government」计划,还在建设算力设施。>阅读原文
产品应用
Granola:AI纪要工具新势力面临挑战
AI 纪要工具市场玩家众多且同质化严重。Granola 以新颖交互方式和独特理念吸引关注,完成 4300 万美元 B 轮融资,估值 2.5 亿美元。不过,它面临用户习惯和大模型竞争挑战,能否沉淀工作流待察。>阅读原文
地瓜 RDK S100:助力具身智能落地
具身智能受关注但面临技术落地等问题。地瓜机器人推出 RDK S100 套件,采用算控一体,适配近三年落地场景。还提供基础设施支持,跑通多场景,其地心引力计划汇聚超 200 家初创公司。>阅读原文
谷歌Gemini 2.5上线,玩宝可梦竟“恐慌”
谷歌Gemini 2.5全家桶上线,含三款模型。性能跃升,在编程、推理等测试刷新SOTA,各领域能力优化。玩宝可梦时生命值低会“慌乱”,推理能力下降,2.5 Flash - Lite性价比高。>阅读原文
MiniMax:AI视频与推理模型成果惊艳
MiniMax:新发布的海螺2.0版本AI视频生成能力惊艳,指令遵循和生成质量一流。还开源MiniMax - M1,两大底层技术创新,在大模型变局中强化基础模型能力。>阅读原文
德国新模型 FLUX.1 Kontext 测试表现优
德国 Black Forest Labs 推出 FLUX.1 Kontext 系列图像模型,能可控编辑图像,有多种版本。测试中其 max 和 pro 版优于竞品,dev 版也表现不错,公司还将公开专有评估基准。>阅读原文
豆包AI高考数学Ⅱ卷获满分
豆包爱学App的AI挑战高考数学全国卷,Ⅰ卷144分、Ⅱ卷满分。由6位名师把关,解题稳定、逻辑强。虽有小问题,但对师生帮助大,或让AI教育变天。>阅读原文
Cursor定价更新,推Ultra并改Pro计划
Cursor更新定价,推出Ultra计划,Pro计划默认无限请求但有速率限制,也可切换旧模式。此外,推荐了4个适用于不同场景的开源LLM微调库,满足多样需求。>阅读原文
火山引擎:智能视频云三层架构升级
甲子光年:2025年AI关键在多媒体领域。火山引擎提出智能视频云三层架构升级,从基建到平台再到应用,助力企业实现低成本、高效应用,多行业已基于此打造能力。>阅读原文
可灵+Midjourney打造爆火吉卜力风“手游”
吉卜力风格“手游”在社交平台爆火,它由可灵AI和Midjourney结合文字提示生成,创作者公开制作指南,可凭提示词复刻。此外,可灵AI发展态势良好,市场占有率达30.7%。>阅读原文
谷歌Veo 3上线,解压视频与广告双爆火
谷歌AI视频工具Veo 3生成的切水果视频爆火,今日正式上线。它能实现多样创意视频生成,AI电影制作人PJ Ace用其两天做出3000万播放量广告,虽成本降低,但制作仍有门槛。>阅读原文
推荐文章
OpenAI:揭秘构建AI智能体实用指南
OpenAI:构建AI智能体需强大模型、完备工具和明确指令;架构上从单一到多智能体渐进;要设分层安全护栏和人工干预机制。未来将发展智能体生态系统。>阅读原文
Cognition AI:别再构建多智能体了
Cognition AI团队认为2025年追求多智能体并行协作架构是歧途,会出现信息孤岛和决策冲突。主张用单线程线性架构和上下文工程,管理传递信息,确保信息流完整连续。>阅读原文
年轻AI创造者:用AI搭建自己的世界
三位年轻AI创造者分享经历:涂津豪用AI辅助学习、参赛;陈春宇从接触模型到创业;刘安迪用大模型做项目。他们认为AI改变工作,也谈及AGI突破和未来能力培养,强调问问题和专注目标的重要性。>阅读原文
Agent 开发迎来「AI 云原生」时刻
大模型时代交互主体变 Agent,「AI 云原生」围绕其重构架构。基于火山引擎工具和模型开发 Agent,用 PromptPilot 调优提示词,配置 MCP 工具,用豆包 1.6 模型,做了两个应用案例。>阅读原文
行主序与列主序对矩阵乘法性能的影响
Lei Mao指出,行主序和列主序存储多维数组方式不同,影响矩阵乘法性能。不同存储顺序组合有不同乘法偏好,优化可缩小性能差距,高度优化实现能让差异几乎消失。>阅读原文
AI Agent 工程化体系拆解
望宸:AI 发展中工程化作用被低估,构建 AI Agent 工程化体系分产品和技术工程。产品工程重用户体验,技术工程保障系统稳定,如 Spring AI Alibaba 等工具助力,推进工程化利于行业发展。>阅读原文
Anthropic:多智能体研究系统构建经验
Anthropic介绍多智能体研究系统:用Claude智能体探索复杂主题,优势显著,性能超单智能体;给出提示工程和评估方法;虽生产环境有挑战,但精心设计可可靠运行,改变解决问题方式。>阅读原文
开源动态
MagicTryOn:开源视频虚拟试衣新突破
小G推荐开源项目MagicTryOn,它基于扩散Transformer实现视频虚拟试衣。采用三项创新技术,支持多形式试衣及定制。2025年5-6月论文发布、代码开源,后续还将更新。>阅读原文
大学生开源Web终端工具首月获1K+ star
开源君推荐大学生开发的远程终端工具Nexus Terminal。它集成多协议,有多重安全保障,操作便捷,适合中小团队和个人。安装简单,开源首月获1K+ star。>阅读原文
通义&自动化所:GUI - Critic - R1纠错能力SOTA
阿里通义实验室和中科院自动化所推出GUI - Critic - R1模型,可在GUI智能体操作前纠错。它通过特定数据采集链路和训练方法,在多场景实验中表现出色,能提高智能体操作准确率和效率。>阅读原文
GRA框架:小模型“组团”逆袭大模型
上海人工智能实验室等提出GRA框架,让小模型分工合作生成训练数据。实验表明,其数据质量高,训练效果能媲美甚至超大型模型,还节省算力,或重塑数据合成认知。>阅读原文
火山引擎推MIPP平台破多模态应用困局
多模态AI应用落地遇挑战,促使视频云升级。火山引擎在FORCE大会给出分布式多媒体处理实践,升级BMF为D - BMF,构建MIPP平台,未来将开源并推产品,已开发两项智能多媒体应用成果。>阅读原文
苹果开源 Containerization 支持 macOS 运行 Linux 容器
苹果在 2025 年 WWDC 发布 Containerization 和 Container CLI,可在 Mac 上原生运行 Linux 容器,无需第三方工具。其有增强安全等优势,已开源,加入替代 Docker 的开源生态。>阅读原文
DeepSeek R1编程超Opus 4,新模型再超越
开源的DeepSeek R1(0528)在LMArena测试中编程得分超Claude Opus 4,展现强大实力,引发社区热议,有人看好也有人质疑测试结果。同时,月之暗面新模型Kimi - Dev - 72B编程成绩超R1。>阅读原文
算法论文
上海AI Lab:错题本让大模型数学成绩提升13.3%
上海AI Lab提出LEMMA方法,教大模型从错误中学习。用教师模型定向制造错误构造反思数据,实验表明在Llama3 - 8B上数学解题准确率提升13.3%,还提升了模型纠错和泛化能力。>阅读原文
EX - 4D:单目视频到自由视角生成破局者
Bytedance Pico团队胡涛博士等提出EX - 4D。它能从单目视频生成新视角视频,有深度密闭网格等三大设计,实验显示其性能超越现有开源方法,后续将提升深度预测精度和推理速度。>阅读原文
CASE Lab:CoIn框架助力LLM API token审计
马里兰大学CASE Lab团队:当前主流大模型服务隐藏操作透明度低,存在过度收费风险。提出三层审计蓝图和CoIn框架,可平衡服务商与用户需求,呼吁推动建立透明、公平的AI服务标准。>阅读原文
T2L:一句话定制专属大模型LoRA
传统大模型微调方法工程开销大,Text-to-LoRA (T2L) 框架通过自然语言指令适配模型。有三种架构变体和两种训练法,实验表明其在压缩、泛化等方面表现出色,还能理解任务语义。>阅读原文
7B模型玩游戏成「数学天才」,碾压GPT - 4o
NVIDIA等团队提出ViGaL训练范式,让7B模型玩游戏培养跨领域推理能力。实验显示,玩游戏可提升数学、几何等多领域推理,且不牺牲通用视觉能力,多游戏训练效果更好。>阅读原文
谷歌等破解斑马鱼全脑活动密码
谷歌、哈佛等机构科学家发布ZAPBench平台,用于预测斑马鱼全脑活动。该平台以斑马鱼幼体为研究对象,采集大量神经元活动数据,有特定测试任务和评估指标,为神经科学和机器学习带来新突破。>阅读原文
南科大团队:LESnets高效模拟三维湍流
南科大赵肃楠等提出LESnets方法,将大涡模拟方程作损失函数,不依赖标签数据,训练两种神经算子。在两类湍流中验证其有效性,效率超传统方法,为三维湍流模拟提供新思路。>阅读原文
Google新研究:以“充分上下文”降低大模型幻觉
谷歌研究提出“充分上下文”概念,将“查询 - 上下文”对分类,开发自动评估器。研究发现即使上下文充分模型仍会幻觉等,还提出“选择性生成”框架,为企业团队给出实践指南。>阅读原文
清华团队:FoilCLIP开启语言驱动翼型设计
清华大学张宇飞团队提出FoilCLIP框架,通过多尺度对比学习建立自然语言与翼型几何双向映射。采用VAE - LLM策略构建数据集,验证表明其在分类、生成任务表现好,有语言驱动设计应用潜力。>阅读原文
Google DeepMind:DataRater筛75%低质预训练数据
Google DeepMind推出DataRater,能全自动评估数据质量,筛选有价值数据。它减少训练计算量,提升模型性能,尤其在低质量数据集上效果好,还能跨不同模型规模泛化。>阅读原文
CMU、英伟达新作Multiverse实现大模型并行生成
CMU、英伟达推出Multiverse,实现大模型原生并行生成。它区别于自回归生成,解决现有并行模型缺乏连贯性问题,实验显示其性能优越、扩展性强,还开源了生态。>阅读原文
港中大语音大模型综述入选 ACL 2025 主会
香港中文大学团队语音语言模型综述入选 ACL 2025 主会。该综述剖析 SpeechLM 技术架构、训练策略等,指出其能解决传统语音交互痛点,未来将改变人机交互方式,但也面临挑战。>阅读原文
ZPressor:突破3D高斯泼溅模型性能瓶颈
浙江大学研究人员提出ZPressor模块,利用信息瓶颈原理,解决3D高斯泼溅模型处理密集视图时的性能瓶颈。实验显示,它能降低内存占用和推理时间,提升模型性能,应用前景广阔。>阅读原文
MathFusion:45K数据让模型解数学题准确率升18%
上海AI Lab等团队提出MathFusion,用三种融合策略生成MathFusionQA数据集。仅45K合成指令就让模型准确率提升18%,能增强模型捕捉问题深层联系的能力,不过还需扩展到更难问题。>阅读原文
</p>