围城：模型困局、垂类竞速与 Agent 逐鹿｜赛博月刊 2506说明: 本期月刊期次 2506（2025 年 6 月），

AI 行业大事记

联合出品：

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

① 本期月刊期次 2506（2025 年 6 月），整理和分析的是上个月（5 月）AI 领域里有重大意义和影响的各类事件；

② 本期月刊共收录 101 条内容；

③ 月刊分类中的「模型」均指代语言模型；

④ 前往 WaytoAGI 专区查看「赛博月刊」飞书版

趋势观察

1. 模型

基础模型继续小步伐升级，这个月 Claude 4 系列不负众望正式面世，Deepseek R1 也出了小版本更新。
专注于 Coding 的小模型开始大量出现，并且在一些细分场景超越了大模型。可以预见，垂直领域模型还有非常大的发展空间。

2. 图像

GPT-Image-1 的开源竞争者陆续出现，例如 Hidream-E1 和字节的 Bagel；但最有威胁的还是 Flux-Kontext，在元素一致性上彻底超越了 GPT-Image-1。
传统图像模型和全模态模型的边界逐渐模糊，GPT-Image-1 的神奇能力也不再是独家专有。

3. 视频/数字人

这个月最兴奋的进展来自 Google Veo3，第一个可以原生生成人物对话的视频模型，让 AI 视频不再是哑剧。
开源视频模型在功能上逐渐追赶闭源模型，例如主体参考、元素编辑等等，开闭源的差距在逐渐缩小。
基于开源视频模型的快速发展，数字人领域的进步也比较明显。数字人现在已经不再是对嘴型，而是根据主体参考重新生成的完整视频。

4. 音频

音乐生成领域，闭源模型 Suno 还在持续领先，开源模型也在慢慢追赶，但是至今开闭源还有比较大的差距。
文字转语音（TTS）赛道已经没有太多创新，大家都是 90 分往 95 分努力，未来卷的应该就是性价比了。

5. 3D

3D 领域开始被模型公司投射注意力，背后应该是因为 3D 建模离商业化路径很短，比较容易产生收益。
Tripo 意识到了只有模型没有应用是不够的，开始亲自下场做原生 AI 3D 应用，直接提供端到端的服务。

6. 机器人

通过一场机器人拳击赛就能看出，头部机器人公司对于机器人的动作控制已经比较成熟。
至于如何让机器人不通过预设的程序，而是自发的学会新的动作，世界模型应该是必不可少的。这个领域应该会随着自动驾驶领域的发展，很快有新的突破。

7. 应用

应用大的方向主要还是集中在 Coding 和 Agent，没有新的范式出现。
这个月让人眼前一亮的应用是 Lovart.ai，第一个专注于设计的 Agent 产品，生成结果的可用性也不错。可以预见，各个领域的垂直 Agent 产品会是商业化的一条捷径。
AI 浏览器，会成为大厂之间 Agent 的另一个战场。与其做一个网页版的 Agent，那为什么不进一步做成客户端呢。

8. 新闻/融资

现在已经很少见到模型公司融资的消息了，模型大战已经结束，应用大战已经开启。
Coding 领域大战基本到了尾声，老大 Cursor 不到半年估值翻了 4 倍，老二 Windsurf 已被 OpenAI 收购。
Agent 领域大战才刚刚开始，如同春秋战国时期，百家争鸣。

时光机

5 月 1 日

| 模型 | NVIDIA ● Describe Anything Model（DAM）多模态模型，为图片和视频的指定区域生成描述（开源）→ 别家都是文字生成图片/视频，这个模型却专注于图片/视频生成文字

| 模型 | Microsoft ● Phi-4 推理模型，专注数学与编程等复杂推理任务的小模型（开源）→ 体验下来，不如 Qwen3

| 模型 | Amazon ● Amazon Nova Premier 教师模型，Nova 系列最强版本

| 图像 | HiDream 智象未来 ● HiDream-I1 图像生成模型 && HiDream-E1 交互编辑模型（开源）→ 相当优秀的国产开源图像模型，可惜风头很快就被月底的 flux-Kontext 给盖过去了

5 月 2 日

| 图像 | Midjourney ● Omni-Reference 全向参考功能 && MJ 近期重要更新汇总 → 在真正的全模态模型的猛烈攻势下，MJ 所剩的唯一优势可能就是审美了

| 音频 | Suno ● Suno v4.5 音乐生成模型，音质与人声全面升级 → Suno 持续保持领先

| 新闻 | Sequoia Capital（红杉资本）AI Ascent 2025 ● 汇聚超 100 位 AI 领军人物，探讨行业未来发展

5 月 3 日（无）

5 月 4 日（无）

5 月 5 日（无）

5 月 6 日

| 模型 | 智源研究院 ● 中文互联网语料库 CCI 4.0，扩展为多语种（开源）

| 模型 | 智源研究院 X 南开大学 ● Chinese-LiPS 中文多模态语音识别数据集（开源）

| 模型 | 360 ● 360Zhinao3-7B 新系列模型升级 && O1.5 推理模型开源 → 没有什么特色，感觉是战略性开源

| 应用 | 阿里巴巴 ● 通义灵码编程智能体上线 → 每个巨头都要做自己的 AI Coding 工具，但是都陷入了同质化的怪圈

| 融资 | OpenAI 斥资 30 亿美元收购编程应用 Windsurf → OpenAI 没有选择自己开发，直接收购了业界老二，是因为老大不肯卖吗

| 融资 | Anysphere（Cursor） 完成 9 亿美元融资，估值达到 90 亿美元 → Cursor 估值，每个月都在涨

5 月 7 日

| 模型 | Mistral AI ● Medium 3 多模态模型，高性能、低成本，企业级 AI 新选择

| 模型 | Cognition Labs（Devin） ● Kevin-32B 用于编写 CUDA Kernel 的多轮强化学习模型（开源）→ 针对某个细分领域进行后训练的小模型，可以做到「小模型，大效果

| 模型 | Apple ● FastVLM 视觉-语言模型，支持端侧部署（开源）→ 很快就在 WWDC 上见到了这款模型的实际应用，效果不错

| 音频 | 阶跃星辰 X ACE Studio ● ACE-Step 音乐生成基础模型，消费级显卡可用（开源）→ 实测距离 Suno 还有不小的差距

| 视频 | HeyGen ● Avatar IV 数字人视频生成模型，一张照片+一段文本=逼真的视频 → 与 Hedra 类似，都是用图片生成的数字人

5 月 8 日

| 应用 | 阿里巴巴 ● 夸克「深度搜索」升级 &&「深度研究」上线 → Deep (Re)Search 逐渐成为各家的标配

| 应用 | 魔乐社区 ● 开放共享的 AI 工具与模型生态平台

| 应用 | Figma Config 2025 ● Figma 发布 4 项重要更新，Figma Buzz、Figma Draw、Figma Make、Figma Sites

5 月 9 日

| 视频 | 腾讯 ● HunyuanCustom 多模态定制化视频生成模型，保持视频中多主体一致性（开源）→ 人物一致性做的不错，很适合拿来做数字人，就是生成速度很慢

| 视频 | Luma AI ● Reframe 智能扩展图像视频画面，适配多平台尺寸需求 → 之前 Runway 已经上线了这个功能，现在 Luma 补上了

| 3 D | Enigma Labs ● Multiverse 多人模式游戏模型（全开源）

| 应用 | 秘塔 AI 搜索 ● 讲题功能上线 → 在提升用户体验方面，秘塔的理念极具独创性

5 月 10 日（无）

5 月 11 日（无）

5 月 12 日

| 模型 | Prime Intellect ● INTELLECT-2 推理模型，全球首个分布式强化学习训练模型 → 如果分布式能成，训练的门槛将会大大的降低

| 新闻 | 教育部 ● 发布两项指南，科学规范推进人工智能全学段教育 → AI 教育要从娃娃抓起

5 月 13 日

| 模型 | OpenAI ● HealthBench 医疗基准测试，评估大模型在医疗健康领域的表现（开源）→ 可以预见，这种高质量的私有数据，会是未来模型差异化的源头

| 视频 | 爱诗科技 ● Pixverse V4.5 视频生成模型，实现电影级镜头控制 → 继续进步，从而应对可灵的竞争

| 3 D | 昆仑万维 ● Matrix-Game 可交互视频生成世界模型，推动游戏世界建模（开源）

| 应用 | 阿里巴巴 ● QwenChat 上线网页开发和 Deep Research 功能

| 应用 | Lovart.ai ● 首个通用 Design Agent，一句话搞定全链路设计 → 无边画布很适合设计 Agent，用户体验非常不错

| 应用 | Notion ● AI Meeting Notes 功能上线，自动转录会议内容并生成结构化摘要 → 会议纪要，真是个刚需的大市场

5 月 14 日

| 模型 | Google ● AlphaEvolve 用于算法设计的编程智能体

| 模型 | 快手 X 中科院 X 清华大学 X 南京大学 ● R1-Reward 多模态奖励模型，性能提升 5%-15%（开源）

| 音频 | Stability AI X Arm ● Stable Audio Open Small 文本转音频模型，支持移动端快速生成短音频（开源）→ 生成速度是个亮点

| 视频 | 阿里巴巴 ● Wan2.1-VACE 视频生成与编辑统一模型，支持全功能生成（开源）→ 把商用模型的秘密都开源出来了，但生成的视频质量还差点意思

| 3 D | 阶跃星辰 X 光影焕像 ● Step1X-3D 生成大模型，支持高保真可控生成（全开源）→ 阶跃也做 3D 了，3D 这个赛道慢慢开始火热

| 应用 | 面壁智能 X 清华大学 ● SurveyGO 学术长文本写作工具（开源）→ Long to Long 领域非常不错的实践

5 月 15 日

| 音频 | MiniMax ● Speech-02 文本转语音（TTS）模型，音色克隆技术领先全球 → 音色克隆能力很强

| 融资 | Hedra 完成 3200 万美元 A 轮融资，估值达到 2 亿美元 → 对标 Heygen

5 月 16 日

| 模型 | Windsurf ● SWE-1 编程模型，专注于复杂的软件工程任务 → AI Coding 公司推出自己的模型在意料之中，据说蒸馏了不少其他模型的数据

| 图像 | 腾讯 ● Hunyuan Image 2.0 图像生成模型，实现毫秒级响应 → 质量比之前的 sd-lightning 强，适合拿来做提示词测试

| 视频 | Higgsfield AI ● Higgsfield Ads 将产品图片转为专业的广告视频 → Higgisfield 对商用需求的把握非常精准

| 应用 | ElevenLabs ● SB-1 无限音效板，可以定制音效的控制面板

| 新闻 | 特朗普 ● 访问中东三国，达成多项大额 AI 交易

5 月 17 日

| 模型 | 阿里巴巴 ● ZeroSearch 强化学习框架，通过模拟搜索引擎提升大模型的搜索能力（开源）

| 应用 | OpenAI ● Codex 云端编程智能体，高效处理复杂软件工程任务 → 更偏向专业 Coding辅助，而不是 Vibe Coding

5 月 18 日

| 新闻 | 五源资本 ● 72 小时 AI 生存挑战，依靠 AI 工具解决生存需求

5 月 19 日

| 视频 | 哔哩哔哩 ● Index-AniSora 动漫视频生成模型，献给二次元世界的礼物（开源）→ 这个模型 B 站做最对味 👀

| 应用 | 字节跳动 ● 火山引擎 MCP Servers 大模型生态广场发布 → 暂时不支持第三方 MCP Server，不够开放

| 应用 | 腾讯 QQ 浏览器 ● QBot 上线，正式升级为 AI 浏览器 → 浏览器也是 AI 厂商的必争之地 ⚔

| 应用 | Flowith ● Neo 云端 Agent 系统，首个「无限」智能体

5 月 20 日

| 模型 | 字节跳动 ● Seed-Coder 轻量级编程模型，字节的前沿探索成果（开源）

| 机器人 | 智元机器人 ● EVAC 基于机器人动作序列驱动的具身世界模型 && EWMBench 具身世界模型基准测试（开源）

| 融资 | 美图获得阿里巴巴 2.5 亿美元投资，双方达成战略合作 → 阿里投资开始在 AI 应用领域发力

| 模型 | Google I/O 2025 ● Gemini 2.5 Pro && Gemini 2.5 Flash 模型升级 → Google 彻底打了个翻身仗，全方位领先

| 模型 | Google I/O 2025 ● Gemma 3n 多模态模型，移动端优化（开源）

| 图像 | Google I/O 2025 ● Imagen 4 图像生成模型，实现 2K 高分辨率

| 音频 | Google I/O 2025 ● Lyria 2 音乐生成模型 && Lyria RealTime 交互式音乐生成应用 → 只能生成没有人声的音乐，无法生成歌曲

| 视频 | Google I/O 2025 ● Veo 3 视频生成模型，进入音画同步时代 → 第一个可以自动生成人物配音的视频模型，AI 视频不再是哑剧

| 应用 | Google I/O 2025 ● Flow 电影级影视片段制作工具，集成了 Google 最先进模型

| 应用 | Google I/O 2025 ● SynthID Detector 识别 AI 生成内容的检测平台

| 应用 | Google I/O 2025 ● Jules 异步编程智能体，在云端虚拟机中独立执行任务

| 应用 | Google I/O 2025 ● Stitch 基于自然语言的 UI 设计与代码生成工具

| 应用 | Google I/O 2025 ● AI Mode 正式登录 Google Search，搜索从此「千人千面」 → 如此庞大的日活下，背后的算力成本应该相当高昂

5 月 21 日

| 模型 | Mistral AI X All Hands AI ● Devstral 编程模型，专注于复杂的软件工程任务 → 又一个专注于 Coding 的小模型

| 图像 | 腾讯 ● 混元游戏视觉生成平台 && Hunyuan-Game 工业级游戏内容资产生成模型

| 机器人 | NVIDIA ● Cosmos-Reason1-7B 面向机器人技术的视觉-语言推理模型（开源）

| 应用 | 字节跳动 ● 飞书知识问答功能上线，整合企业内资源实现智能解答 → 企业内部的 Deep Search

| 应用 | 腾讯 ● 腾讯云智能体开发平台（TCADP）上线 → 一个类似 Coze 和 Dify 的平台，但是非常简陋，看不出有什么竞争力

| 融资 | 面壁智能完成新一轮数亿元融资 → 全球为数不多专注端侧小模型的企业

5 月 22 日

| 音频 | Kyutai ● Unmute.sh 语音系统，可以为任何文本大语言模型添加语音功能（即将开源）

| 应用 | Mistral AI ● Document AI 高精度文档解析工具，成本低至 1 美元 2000 页 → 一个基于 OCR 模型 API 实现的简单应用

| 应用 | 昆仑万维 ● Skywork Super Agents 天工超级智能体上线 → 又一个类 Manus 应用，做 PPT 尤其出色

| 融资 | LMArena ● 完成 1 亿美元种子轮融资，估值达到 6 亿美元

| 融资 | OpenAI 以 65 亿美元收购 io，进军 AI 硬件领域

| 新闻 | Microsoft Build 2025 ● 迈向 AI Agent 时代，构建 Open Agentic Web 成为新愿景

5 月 23 日

| 模型 | Anthropic ● Claude Opus 4 和 Claude Sonnet 4 推理模型，专注持续性推理与复杂任务执行 → 重夺编程模型之王的宝座

| 模型 | 上海人工智能实验室 ● 书生·思客（InternThinker）围棋推理模型 → 用 LLM 下围棋，有一种奇特的复古感

| 模型 | 字节跳动 ● Dolphin 文档解析模型，高效精准处理复杂文档（开源）→ 非常利好本地化 RAG

5 月 24 日（无）

5 月 25 日

| 机器人 | 《CMG 世界机器人大赛·系列赛》机甲格斗擂台赛，展现高难度格斗技术 → 比上个月马拉松比赛的机器人，看起来强多了

5 月 26 日

| 模型 | 红杉中国 ● xbench 基准测试，聚焦真实场景效用与垂类智能体评测（开源）

5 月 27 日

| 音频 | 字节跳动 ● 豆包·语音播客模型（预告）&& 扣子空间 Agent 播客制作功能上线 → 语音播客模型的语气非常真实自然，中文领域最佳

5 月 28 日

| 模型 | Mistral AI ● Codestral Embed 代码嵌入模型，性能超越主流方案 → 连 Embedding 模型都有为代码设计的了，Coding 赛道真的火

| 图像 | 字节跳动 ● BAGEL 统一多模态理解与生成模型（开源）→ 人物一致性比 gpt-image-1 强，但其他都远远不如

| 视频 | 腾讯 ● HunyuanVideo-Avatar 语音数字人模型，图像+音频=说话 & 唱歌的数字人（开源）

| 3 D | Odyssey ● 实时 3D 互动视频技术（研究预览），延迟仅 40 毫秒，成本低至 1 美元/小时

| 机器人 | 北京人形机器人创新中心牵头制定全球首个《人形机器人智能化分级》→ 人形机器人的发展，有一个标准了

| 应用 | 昆仑万维 ● Opera Neon 智能 Agent 浏览器，开启内测

5 月 29 日

| 模型 | DeepSeek ● DeepSeek-R1-0528 推理模型「小升级」，思考更深，推理更强 → 还是基于 deepseek-v3 旧版训练的，并不是基于最新的 v3 训练的

| 视频 | 快手 ● 可灵 2.1 && 可灵 2.1 大师版上线，理解力与生成速度全面升级

| 融资 | Grammarly 完成 10 亿美元融资，加速 AI 产品升级与平台化转型 → 一个看似简单的语法纠错需求，也可以生长出巨头

5 月 30 日

| 模型 | 字节跳动 ● Web-Bench 编程能力基准测试，评估模型在复杂 Web 全栈任务中的表现（开源）→ 2.1 终于有普通版了，性价比不错，可以大规模商用了

| 模型 | 小米 ● Xiaomi MiMo-VL 多模态大模型（开源）→ 小米开始在大模型领域发力，表现都比较亮眼

| 图像 | Black Forest Labs ● FLUX.1 Kontext 图像生成与编辑模型，角色一致性能力亮眼 → 解决了 gpt-image-1 人物一致性的问题，图像编辑领域的 New King

| 音频 | ElevenLabs ● Conversational AI 2.0 企业级语音 Agent 平台

| 应用 | Perplexity ● Labs 智能体创作平台，一站式生成报告、演示与可视化项目

5 月 31 日

| 3 D | VAST ● Tripo Studio 工作站上线，实现一站式 3D 建模 → 从模型到应用，Tripo 要打造 3D 领域的完整生态

| 应用 | Google ● Gemini App（应用）近期重要更新汇总

| 应用 | OpenAI ● ChatGPT 近期重要更新汇总

（完整版指路：302.AI 公众号）