AI 行业大事记
联合出品:
Jomy @ 302.AI
南乔 @ ShowMeAI
大聪明 @ 赛博禅心
说明:
① 本期月刊期次 2506(2025 年 6 月),整理和分析的是上个月(5 月)AI 领域里有重大意义和影响的各类事件;
② 本期月刊共收录 101 条内容;
③ 月刊分类中的「模型」均指代语言模型;
④ 前往 WaytoAGI 专区查看「赛博月刊」飞书版
趋势观察
1. 模型
-
基础模型继续小步伐升级,这个月 Claude 4 系列不负众望正式面世,Deepseek R1 也出了小版本更新。
-
专注于 Coding 的小模型开始大量出现,并且在一些细分场景超越了大模型。可以预见,垂直领域模型还有非常大的发展空间。
2. 图像
-
GPT-Image-1 的开源竞争者陆续出现,例如 Hidream-E1 和字节的 Bagel;但最有威胁的还是 Flux-Kontext,在元素一致性上彻底超越了 GPT-Image-1。
-
传统图像模型和全模态模型的边界逐渐模糊,GPT-Image-1 的神奇能力也不再是独家专有。
3. 视频/数字人
-
这个月最兴奋的进展来自 Google Veo3,第一个可以原生生成人物对话的视频模型,让 AI 视频不再是哑剧。
-
开源视频模型在功能上逐渐追赶闭源模型,例如主体参考、元素编辑等等,开闭源的差距在逐渐缩小。
-
基于开源视频模型的快速发展,数字人领域的进步也比较明显。数字人现在已经不再是对嘴型,而是根据主体参考重新生成的完整视频。
4. 音频
-
音乐生成领域,闭源模型 Suno 还在持续领先,开源模型也在慢慢追赶,但是至今开闭源还有比较大的差距。
-
文字转语音(TTS)赛道已经没有太多创新,大家都是 90 分往 95 分努力,未来卷的应该就是性价比了。
5. 3D
-
3D 领域开始被模型公司投射注意力,背后应该是因为 3D 建模离商业化路径很短,比较容易产生收益。
-
Tripo 意识到了只有模型没有应用是不够的,开始亲自下场做原生 AI 3D 应用,直接提供端到端的服务。
6. 机器人
-
通过一场机器人拳击赛就能看出,头部机器人公司对于机器人的动作控制已经比较成熟。
-
至于如何让机器人不通过预设的程序,而是自发的学会新的动作,世界模型应该是必不可少的。这个领域应该会随着自动驾驶领域的发展,很快有新的突破。
7. 应用
-
应用大的方向主要还是集中在 Coding 和 Agent,没有新的范式出现。
-
这个月让人眼前一亮的应用是 Lovart.ai,第一个专注于设计的 Agent 产品,生成结果的可用性也不错。可以预见,各个领域的垂直 Agent 产品会是商业化的一条捷径。
-
AI 浏览器,会成为大厂之间 Agent 的另一个战场。与其做一个网页版的 Agent,那为什么不进一步做成客户端呢。
8. 新闻/融资
-
现在已经很少见到模型公司融资的消息了,模型大战已经结束,应用大战已经开启。
-
Coding 领域大战基本到了尾声,老大 Cursor 不到半年估值翻了 4 倍,老二 Windsurf 已被 OpenAI 收购。
-
Agent 领域大战才刚刚开始,如同春秋战国时期,百家争鸣。
时光机
5 月 1 日
| 模型 | NVIDIA ● Describe Anything Model(DAM)多模态模型,为图片和视频的指定区域生成描述(开源)→ 别家都是文字生成图片/视频,这个模型却专注于图片/视频生成文字
| 模型 | Microsoft ● Phi-4 推理模型,专注数学与编程等复杂推理任务的小模型(开源)→ 体验下来,不如 Qwen3
| 模型 | Amazon ● Amazon Nova Premier 教师模型,Nova 系列最强版本
| 图像 | HiDream 智象未来 ● HiDream-I1 图像生成模型 && HiDream-E1 交互编辑模型(开源)→ 相当优秀的国产开源图像模型,可惜风头很快就被月底的 flux-Kontext 给盖过去了
5 月 2 日
| 图像 | Midjourney ● Omni-Reference 全向参考功能 && MJ 近期重要更新汇总 → 在真正的全模态模型的猛烈攻势下,MJ 所剩的唯一优势可能就是审美了
| 音频 | Suno ● Suno v4.5 音乐生成模型,音质与人声全面升级 → Suno 持续保持领先
| 新闻 | Sequoia Capital(红杉资本)AI Ascent 2025 ● 汇聚超 100 位 AI 领军人物,探讨行业未来发展
5 月 3 日(无)
5 月 4 日(无)
5 月 5 日(无)
5 月 6 日
| 模型 | 智源研究院 ● 中文互联网语料库 CCI 4.0,扩展为多语种(开源)
| 模型 | 智源研究院 X 南开大学 ● Chinese-LiPS 中文多模态语音识别数据集(开源)
| 模型 | 360 ● 360Zhinao3-7B 新系列模型升级 && O1.5 推理模型开源 → 没有什么特色,感觉是战略性开源
| 应用 | 阿里巴巴 ● 通义灵码编程智能体上线 → 每个巨头都要做自己的 AI Coding 工具,但是都陷入了同质化的怪圈
| 融资 | OpenAI 斥资 30 亿美元收购编程应用 Windsurf → OpenAI 没有选择自己开发,直接收购了业界老二,是因为老大不肯卖吗
| 融资 | Anysphere(Cursor) 完成 9 亿美元融资,估值达到 90 亿美元 → Cursor 估值,每个月都在涨
5 月 7 日
| 模型 | Mistral AI ● Medium 3 多模态模型,高性能、低成本,企业级 AI 新选择
| 模型 | Cognition Labs(Devin) ● Kevin-32B 用于编写 CUDA Kernel 的多轮强化学习模型(开源)→ 针对某个细分领域进行后训练的小模型,可以做到「小模型,大效果
| 模型 | Apple ● FastVLM 视觉-语言模型,支持端侧部署(开源)→ 很快就在 WWDC 上见到了这款模型的实际应用,效果不错
| 音频 | 阶跃星辰 X ACE Studio ● ACE-Step 音乐生成基础模型,消费级显卡可用(开源)→ 实测距离 Suno 还有不小的差距
| 视频 | HeyGen ● Avatar IV 数字人视频生成模型,一张照片+一段文本=逼真的视频 → 与 Hedra 类似,都是用图片生成的数字人
5 月 8 日
| 应用 | 阿里巴巴 ● 夸克「深度搜索」升级 &&「深度研究」上线 → Deep (Re)Search 逐渐成为各家的标配
| 应用 | 魔乐社区 ● 开放共享的 AI 工具与模型生态平台
| 应用 | Figma Config 2025 ● Figma 发布 4 项重要更新,Figma Buzz、Figma Draw、Figma Make、Figma Sites
5 月 9 日
| 视频 | 腾讯 ● HunyuanCustom 多模态定制化视频生成模型,保持视频中多主体一致性(开源)→ 人物一致性做的不错,很适合拿来做数字人,就是生成速度很慢
| 视频 | Luma AI ● Reframe 智能扩展图像视频画面,适配多平台尺寸需求 → 之前 Runway 已经上线了这个功能,现在 Luma 补上了
| 3 D | Enigma Labs ● Multiverse 多人模式游戏模型(全开源)
| 应用 | 秘塔 AI 搜索 ● 讲题功能上线 → 在提升用户体验方面,秘塔的理念极具独创性
5 月 10 日(无)
5 月 11 日(无)
5 月 12 日
| 模型 | Prime Intellect ● INTELLECT-2 推理模型,全球首个分布式强化学习训练模型 → 如果分布式能成,训练的门槛将会大大的降低
| 新闻 | 教育部 ● 发布两项指南,科学规范推进人工智能全学段教育 → AI 教育要从娃娃抓起
5 月 13 日
| 模型 | OpenAI ● HealthBench 医疗基准测试,评估大模型在医疗健康领域的表现(开源)→ 可以预见,这种高质量的私有数据,会是未来模型差异化的源头
| 视频 | 爱诗科技 ● Pixverse V4.5 视频生成模型,实现电影级镜头控制 → 继续进步,从而应对可灵的竞争
| 3 D | 昆仑万维 ● Matrix-Game 可交互视频生成世界模型,推动游戏世界建模(开源)
| 应用 | 阿里巴巴 ● QwenChat 上线网页开发和 Deep Research 功能
| 应用 | Lovart.ai ● 首个通用 Design Agent,一句话搞定全链路设计 → 无边画布很适合设计 Agent,用户体验非常不错
| 应用 | Notion ● AI Meeting Notes 功能上线,自动转录会议内容并生成结构化摘要 → 会议纪要,真是个刚需的大市场
5 月 14 日
| 模型 | Google ● AlphaEvolve 用于算法设计的编程智能体
| 模型 | 快手 X 中科院 X 清华大学 X 南京大学 ● R1-Reward 多模态奖励模型,性能提升 5%-15%(开源)
| 音频 | Stability AI X Arm ● Stable Audio Open Small 文本转音频模型,支持移动端快速生成短音频(开源)→ 生成速度是个亮点
| 视频 | 阿里巴巴 ● Wan2.1-VACE 视频生成与编辑统一模型,支持全功能生成(开源)→ 把商用模型的秘密都开源出来了,但生成的视频质量还差点意思
| 3 D | 阶跃星辰 X 光影焕像 ● Step1X-3D 生成大模型,支持高保真可控生成(全开源)→ 阶跃也做 3D 了,3D 这个赛道慢慢开始火热
| 应用 | 面壁智能 X 清华大学 ● SurveyGO 学术长文本写作工具(开源)→ Long to Long 领域非常不错的实践
5 月 15 日
| 音频 | MiniMax ● Speech-02 文本转语音(TTS)模型,音色克隆技术领先全球 → 音色克隆能力很强
| 融资 | Hedra 完成 3200 万美元 A 轮融资,估值达到 2 亿美元 → 对标 Heygen
5 月 16 日
| 模型 | Windsurf ● SWE-1 编程模型,专注于复杂的软件工程任务 → AI Coding 公司推出自己的模型在意料之中,据说蒸馏了不少其他模型的数据
| 图像 | 腾讯 ● Hunyuan Image 2.0 图像生成模型,实现毫秒级响应 → 质量比之前的 sd-lightning 强,适合拿来做提示词测试
| 视频 | Higgsfield AI ● Higgsfield Ads 将产品图片转为专业的广告视频 → Higgisfield 对商用需求的把握非常精准
| 应用 | ElevenLabs ● SB-1 无限音效板,可以定制音效的控制面板
| 新闻 | 特朗普 ● 访问中东三国,达成多项大额 AI 交易
5 月 17 日
| 模型 | 阿里巴巴 ● ZeroSearch 强化学习框架,通过模拟搜索引擎提升大模型的搜索能力(开源)
| 应用 | OpenAI ● Codex 云端编程智能体,高效处理复杂软件工程任务 → 更偏向专业 Coding辅助,而不是 Vibe Coding
5 月 18 日
| 新闻 | 五源资本 ● 72 小时 AI 生存挑战,依靠 AI 工具解决生存需求
5 月 19 日
| 视频 | 哔哩哔哩 ● Index-AniSora 动漫视频生成模型,献给二次元世界的礼物(开源)→ 这个模型 B 站做最对味 👀
| 应用 | 字节跳动 ● 火山引擎 MCP Servers 大模型生态广场发布 → 暂时不支持第三方 MCP Server,不够开放
| 应用 | 腾讯 QQ 浏览器 ● QBot 上线,正式升级为 AI 浏览器 → 浏览器也是 AI 厂商的必争之地 ⚔
| 应用 | Flowith ● Neo 云端 Agent 系统,首个「无限」智能体
5 月 20 日
| 模型 | 字节跳动 ● Seed-Coder 轻量级编程模型,字节的前沿探索成果(开源)
| 机器人 | 智元机器人 ● EVAC 基于机器人动作序列驱动的具身世界模型 && EWMBench 具身世界模型基准测试(开源)
| 融资 | 美图获得阿里巴巴 2.5 亿美元投资,双方达成战略合作 → 阿里投资开始在 AI 应用领域发力
| 模型 | Google I/O 2025 ● Gemini 2.5 Pro && Gemini 2.5 Flash 模型升级 → Google 彻底打了个翻身仗,全方位领先
| 模型 | Google I/O 2025 ● Gemma 3n 多模态模型,移动端优化(开源)
| 图像 | Google I/O 2025 ● Imagen 4 图像生成模型,实现 2K 高分辨率
| 音频 | Google I/O 2025 ● Lyria 2 音乐生成模型 && Lyria RealTime 交互式音乐生成应用 → 只能生成没有人声的音乐,无法生成歌曲
| 视频 | Google I/O 2025 ● Veo 3 视频生成模型,进入音画同步时代 → 第一个可以自动生成人物配音的视频模型,AI 视频不再是哑剧
| 应用 | Google I/O 2025 ● Flow 电影级影视片段制作工具,集成了 Google 最先进模型
| 应用 | Google I/O 2025 ● SynthID Detector 识别 AI 生成内容的检测平台
| 应用 | Google I/O 2025 ● Jules 异步编程智能体,在云端虚拟机中独立执行任务
| 应用 | Google I/O 2025 ● Stitch 基于自然语言的 UI 设计与代码生成工具
| 应用 | Google I/O 2025 ● AI Mode 正式登录 Google Search,搜索从此「千人千面」 → 如此庞大的日活下,背后的算力成本应该相当高昂
5 月 21 日
| 模型 | Mistral AI X All Hands AI ● Devstral 编程模型,专注于复杂的软件工程任务 → 又一个专注于 Coding 的小模型
| 图像 | 腾讯 ● 混元游戏视觉生成平台 && Hunyuan-Game 工业级游戏内容资产生成模型
| 机器人 | NVIDIA ● Cosmos-Reason1-7B 面向机器人技术的视觉-语言推理模型(开源)
| 应用 | 字节跳动 ● 飞书知识问答功能上线,整合企业内资源实现智能解答 → 企业内部的 Deep Search
| 应用 | 腾讯 ● 腾讯云智能体开发平台(TCADP)上线 → 一个类似 Coze 和 Dify 的平台,但是非常简陋,看不出有什么竞争力
| 融资 | 面壁智能完成新一轮数亿元融资 → 全球为数不多专注端侧小模型的企业
5 月 22 日
| 音频 | Kyutai ● Unmute.sh 语音系统,可以为任何文本大语言模型添加语音功能(即将开源)
| 应用 | Mistral AI ● Document AI 高精度文档解析工具,成本低至 1 美元 2000 页 → 一个基于 OCR 模型 API 实现的简单应用
| 应用 | 昆仑万维 ● Skywork Super Agents 天工超级智能体上线 → 又一个类 Manus 应用,做 PPT 尤其出色
| 融资 | LMArena ● 完成 1 亿美元种子轮融资,估值达到 6 亿美元
| 融资 | OpenAI 以 65 亿美元收购 io,进军 AI 硬件领域
| 新闻 | Microsoft Build 2025 ● 迈向 AI Agent 时代,构建 Open Agentic Web 成为新愿景
5 月 23 日
| 模型 | Anthropic ● Claude Opus 4 和 Claude Sonnet 4 推理模型,专注持续性推理与复杂任务执行 → 重夺编程模型之王的宝座
| 模型 | 上海人工智能实验室 ● 书生·思客(InternThinker)围棋推理模型 → 用 LLM 下围棋,有一种奇特的复古感
| 模型 | 字节跳动 ● Dolphin 文档解析模型,高效精准处理复杂文档(开源)→ 非常利好本地化 RAG
5 月 24 日(无)
5 月 25 日
| 机器人 | 《CMG 世界机器人大赛·系列赛》机甲格斗擂台赛,展现高难度格斗技术 → 比上个月马拉松比赛的机器人,看起来强多了
5 月 26 日
| 模型 | 红杉中国 ● xbench 基准测试,聚焦真实场景效用与垂类智能体评测(开源)
5 月 27 日
| 音频 | 字节跳动 ● 豆包·语音播客模型(预告)&& 扣子空间 Agent 播客制作功能上线 → 语音播客模型的语气非常真实自然,中文领域最佳
5 月 28 日
| 模型 | Mistral AI ● Codestral Embed 代码嵌入模型,性能超越主流方案 → 连 Embedding 模型都有为代码设计的了,Coding 赛道真的火
| 图像 | 字节跳动 ● BAGEL 统一多模态理解与生成模型(开源)→ 人物一致性比 gpt-image-1 强, 但其他都远远不如
| 视频 | 腾讯 ● HunyuanVideo-Avatar 语音数字人模型,图像+音频=说话 & 唱歌的数字人(开源)
| 3 D | Odyssey ● 实时 3D 互动视频技术(研究预览),延迟仅 40 毫秒,成本低至 1 美元/小时
| 机器人 | 北京人形机器人创新中心牵头制定全球首个《人形机器人智能化分级》→ 人形机器人的发展,有一个标准了
| 应用 | 昆仑万维 ● Opera Neon 智能 Agent 浏览器,开启内测
5 月 29 日
| 模型 | DeepSeek ● DeepSeek-R1-0528 推理模型「小升级」,思考更深,推理更强 → 还是基于 deepseek-v3 旧版训练的,并不是基于最新的 v3 训练的
| 视频 | 快手 ● 可灵 2.1 && 可灵 2.1 大师版上线,理解力与生成速度全面升级
| 融资 | Grammarly 完成 10 亿美元融资,加速 AI 产品升级与平台化转型 → 一个看似简单的语法纠错需求,也可以生长出巨头
5 月 30 日
| 模型 | 字节跳动 ● Web-Bench 编程能力基准测试,评估模型在复杂 Web 全栈任务中的表现(开源)→ 2.1 终于有普通版了,性价比不错,可以大规模商用了
| 模型 | 小米 ● Xiaomi MiMo-VL 多模态大模型(开源)→ 小米开始在大模型领域发力,表现都比较亮眼
| 图像 | Black Forest Labs ● FLUX.1 Kontext 图像生成与编辑模型,角色一致性能力亮眼 → 解决了 gpt-image-1 人物一致性的问题,图像编辑领域的 New King
| 音频 | ElevenLabs ● Conversational AI 2.0 企业级语音 Agent 平台
| 应用 | Perplexity ● Labs 智能体创作平台,一站式生成报告、演示与可视化项目
5 月 31 日
| 3 D | VAST ● Tripo Studio 工作站上线,实现一站式 3D 建模 → 从模型到应用,Tripo 要打造 3D 领域的完整生态
| 应用 | Google ● Gemini App(应用)近期重要更新汇总
| 应用 | OpenAI ● ChatGPT 近期重要更新汇总
(完整版指路:302.AI 公众号)