围城:模型困局、垂类竞速与 Agent 逐鹿|赛博月刊 2506

169 阅读15分钟

AI 行业大事记

20250618-135356.jpg

联合出品:

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心


说明:

① 本期月刊期次 2506(2025 年 6 月),整理和分析的是上个月(5 月)AI 领域里有重大意义和影响的各类事件;

② 本期月刊共收录 101 条内容;

③ 月刊分类中的「模型」均指代语言模型;

④ 前往 WaytoAGI 专区查看「赛博月刊」飞书版

趋势观察

1. 模型

  • 基础模型继续小步伐升级,这个月 Claude 4 系列不负众望正式面世,Deepseek R1 也出了小版本更新。

  • 专注于 Coding 的小模型开始大量出现,并且在一些细分场景超越了大模型。可以预见,垂直领域模型还有非常大的发展空间。

2. 图像

  • GPT-Image-1 的开源竞争者陆续出现,例如 Hidream-E1 和字节的 Bagel;但最有威胁的还是 Flux-Kontext,在元素一致性上彻底超越了 GPT-Image-1。

  • 传统图像模型和全模态模型的边界逐渐模糊,GPT-Image-1 的神奇能力也不再是独家专有。

3. 视频/数字人

  • 这个月最兴奋的进展来自 Google Veo3,第一个可以原生生成人物对话的视频模型,让 AI 视频不再是哑剧。

  • 开源视频模型在功能上逐渐追赶闭源模型,例如主体参考、元素编辑等等,开闭源的差距在逐渐缩小。

  • 基于开源视频模型的快速发展,数字人领域的进步也比较明显。数字人现在已经不再是对嘴型,而是根据主体参考重新生成的完整视频。

4. 音频

  • 音乐生成领域,闭源模型 Suno 还在持续领先,开源模型也在慢慢追赶,但是至今开闭源还有比较大的差距。

  • 文字转语音(TTS)赛道已经没有太多创新,大家都是 90 分往 95 分努力,未来卷的应该就是性价比了。

5. 3D

  • 3D 领域开始被模型公司投射注意力,背后应该是因为 3D 建模离商业化路径很短,比较容易产生收益。

  • Tripo 意识到了只有模型没有应用是不够的,开始亲自下场做原生 AI 3D 应用,直接提供端到端的服务。

6. 机器人

  • 通过一场机器人拳击赛就能看出,头部机器人公司对于机器人的动作控制已经比较成熟。

  • 至于如何让机器人不通过预设的程序,而是自发的学会新的动作,世界模型应该是必不可少的。这个领域应该会随着自动驾驶领域的发展,很快有新的突破。

7. 应用

  • 应用大的方向主要还是集中在 Coding 和 Agent,没有新的范式出现。

  • 这个月让人眼前一亮的应用是 Lovart.ai,第一个专注于设计的 Agent 产品,生成结果的可用性也不错。可以预见,各个领域的垂直 Agent 产品会是商业化的一条捷径。

  • AI 浏览器,会成为大厂之间 Agent 的另一个战场。与其做一个网页版的 Agent,那为什么不进一步做成客户端呢。

8. 新闻/融资

  • 现在已经很少见到模型公司融资的消息了,模型大战已经结束,应用大战已经开启。

  • Coding 领域大战基本到了尾声,老大 Cursor 不到半年估值翻了 4 倍,老二 Windsurf 已被 OpenAI 收购。

  • Agent 领域大战才刚刚开始,如同春秋战国时期,百家争鸣。

时光机

5 月 1 日

| 模型 | NVIDIA ● Describe Anything Model(DAM)多模态模型,为图片和视频的指定区域生成描述(开源)→ 别家都是文字生成图片/视频,这个模型却专注于图片/视频生成文字

| 模型 | Microsoft ● Phi-4 推理模型,专注数学与编程等复杂推理任务的小模型(开源)→ 体验下来,不如 Qwen3

| 模型 | Amazon ● Amazon Nova Premier 教师模型,Nova 系列最强版本

| 图像 | HiDream 智象未来 ● HiDream-I1 图像生成模型 && HiDream-E1 交互编辑模型(开源)→ 相当优秀的国产开源图像模型,可惜风头很快就被月底的 flux-Kontext 给盖过去了

5 月 2 日

| 图像 | Midjourney ● Omni-Reference 全向参考功能 && MJ 近期重要更新汇总 → 在真正的全模态模型的猛烈攻势下,MJ 所剩的唯一优势可能就是审美了

| 音频 | Suno ● Suno v4.5 音乐生成模型,音质与人声全面升级 → Suno 持续保持领先

| 新闻 | Sequoia Capital(红杉资本)AI Ascent 2025 ● 汇聚超 100 位 AI 领军人物,探讨行业未来发展

5 月 3 日(无)
5 月 4 日(无)
5 月 5 日(无)
5 月 6 日

| 模型 | 智源研究院 ● 中文互联网语料库 CCI 4.0,扩展为多语种(开源)

| 模型 | 智源研究院 X 南开大学 ● Chinese-LiPS 中文多模态语音识别数据集(开源)

| 模型 | 360 ● 360Zhinao3-7B 新系列模型升级 && O1.5 推理模型开源 → 没有什么特色,感觉是战略性开源

| 应用 | 阿里巴巴 ● 通义灵码编程智能体上线 → 每个巨头都要做自己的 AI Coding 工具,但是都陷入了同质化的怪圈

| 融资 | OpenAI 斥资 30 亿美元收购编程应用 Windsurf → OpenAI 没有选择自己开发,直接收购了业界老二,是因为老大不肯卖吗

| 融资 | Anysphere(Cursor) 完成 9 亿美元融资,估值达到 90 亿美元 → Cursor 估值,每个月都在涨

5 月 7 日

| 模型 | Mistral AI ● Medium 3 多模态模型,高性能、低成本,企业级 AI 新选择

| 模型 | Cognition Labs(Devin) ● Kevin-32B 用于编写 CUDA Kernel 的多轮强化学习模型(开源)→ 针对某个细分领域进行后训练的小模型,可以做到「小模型,大效果

| 模型 | Apple ● FastVLM 视觉-语言模型,支持端侧部署(开源)→ 很快就在 WWDC 上见到了这款模型的实际应用,效果不错

| 音频 | 阶跃星辰 X ACE Studio ● ACE-Step 音乐生成基础模型,消费级显卡可用(开源)→ 实测距离 Suno 还有不小的差距

| 视频 | HeyGen ● Avatar IV 数字人视频生成模型,一张照片+一段文本=逼真的视频 → 与 Hedra 类似,都是用图片生成的数字人

5 月 8 日

| 应用 | 阿里巴巴 ● 夸克「深度搜索」升级 &&「深度研究」上线 → Deep (Re)Search 逐渐成为各家的标配

| 应用 | 魔乐社区 ● 开放共享的 AI 工具与模型生态平台

| 应用 | Figma Config 2025 ● Figma 发布 4 项重要更新,Figma Buzz、Figma Draw、Figma Make、Figma Sites

5 月 9 日

| 视频 | 腾讯 ● HunyuanCustom 多模态定制化视频生成模型,保持视频中多主体一致性(开源)→ 人物一致性做的不错,很适合拿来做数字人,就是生成速度很慢

| 视频 | Luma AI ● Reframe 智能扩展图像视频画面,适配多平台尺寸需求 → 之前 Runway 已经上线了这个功能,现在 Luma 补上了

| 3 D | Enigma Labs ● Multiverse 多人模式游戏模型(全开源)

| 应用 | 秘塔 AI 搜索 ● 讲题功能上线 → 在提升用户体验方面,秘塔的理念极具独创性

5 月 10 日(无)
5 月 11 日(无)
5 月 12 日

| 模型 | Prime Intellect ● INTELLECT-2 推理模型,全球首个分布式强化学习训练模型 → 如果分布式能成,训练的门槛将会大大的降低

| 新闻 | 教育部 ● 发布两项指南,科学规范推进人工智能全学段教育 → AI 教育要从娃娃抓起

5 月 13 日

| 模型 | OpenAI ● HealthBench 医疗基准测试,评估大模型在医疗健康领域的表现(开源)→ 可以预见,这种高质量的私有数据,会是未来模型差异化的源头

| 视频 | 爱诗科技 ● Pixverse V4.5 视频生成模型,实现电影级镜头控制 → 继续进步,从而应对可灵的竞争

| 3 D | 昆仑万维 ● Matrix-Game 可交互视频生成世界模型,推动游戏世界建模(开源)

| 应用 | 阿里巴巴 ● QwenChat 上线网页开发和 Deep Research 功能

| 应用 | Lovart.ai ● 首个通用 Design Agent,一句话搞定全链路设计 → 无边画布很适合设计 Agent,用户体验非常不错

| 应用 | Notion ● AI Meeting Notes 功能上线,自动转录会议内容并生成结构化摘要 → 会议纪要,真是个刚需的大市场

5 月 14 日

| 模型 | Google ● AlphaEvolve 用于算法设计的编程智能体

| 模型 | 快手 X 中科院 X 清华大学 X 南京大学 ● R1-Reward 多模态奖励模型,性能提升 5%-15%(开源)

| 音频 | Stability AI X Arm ● Stable Audio Open Small 文本转音频模型,支持移动端快速生成短音频(开源)→ 生成速度是个亮点

| 视频 | 阿里巴巴 ● Wan2.1-VACE 视频生成与编辑统一模型,支持全功能生成(开源)→ 把商用模型的秘密都开源出来了,但生成的视频质量还差点意思

| 3 D | 阶跃星辰 X 光影焕像 ● Step1X-3D 生成大模型,支持高保真可控生成(全开源)→ 阶跃也做 3D 了,3D 这个赛道慢慢开始火热

| 应用 | 面壁智能 X 清华大学 ● SurveyGO 学术长文本写作工具(开源)→ Long to Long 领域非常不错的实践

5 月 15 日

| 音频 | MiniMax ● Speech-02 文本转语音(TTS)模型,音色克隆技术领先全球 → 音色克隆能力很强

| 融资 | Hedra 完成 3200 万美元 A 轮融资,估值达到 2 亿美元 → 对标 Heygen

5 月 16 日

| 模型 | Windsurf ● SWE-1 编程模型,专注于复杂的软件工程任务 → AI Coding 公司推出自己的模型在意料之中,据说蒸馏了不少其他模型的数据

| 图像 | 腾讯 ● Hunyuan Image 2.0 图像生成模型,实现毫秒级响应 → 质量比之前的 sd-lightning 强,适合拿来做提示词测试

| 视频 | Higgsfield AI ● Higgsfield Ads 将产品图片转为专业的广告视频 → Higgisfield 对商用需求的把握非常精准

| 应用 | ElevenLabs ● SB-1 无限音效板,可以定制音效的控制面板

| 新闻 | 特朗普 ● 访问中东三国,达成多项大额 AI 交易

5 月 17 日

| 模型 | 阿里巴巴 ● ZeroSearch 强化学习框架,通过模拟搜索引擎提升大模型的搜索能力(开源)

| 应用 | OpenAI ● Codex 云端编程智能体,高效处理复杂软件工程任务 → 更偏向专业 Coding辅助,而不是 Vibe Coding

5 月 18 日

| 新闻 | 五源资本 ● 72 小时 AI 生存挑战,依靠 AI 工具解决生存需求

5 月 19 日

| 视频 | 哔哩哔哩 ● Index-AniSora 动漫视频生成模型,献给二次元世界的礼物(开源)→ 这个模型 B 站做最对味 👀

| 应用 | 字节跳动 ● 火山引擎 MCP Servers 大模型生态广场发布 → 暂时不支持第三方 MCP Server,不够开放

| 应用 | 腾讯 QQ 浏览器 ● QBot 上线,正式升级为 AI 浏览器 → 浏览器也是 AI 厂商的必争之地 ⚔

| 应用 | Flowith ● Neo 云端 Agent 系统,首个「无限」智能体

5 月 20 日

| 模型 | 字节跳动 ● Seed-Coder 轻量级编程模型,字节的前沿探索成果(开源)

| 机器人 | 智元机器人 ● EVAC 基于机器人动作序列驱动的具身世界模型 && EWMBench 具身世界模型基准测试(开源)

| 融资 | 美图获得阿里巴巴 2.5 亿美元投资,双方达成战略合作 → 阿里投资开始在 AI 应用领域发力

| 模型 | Google I/O 2025 ● Gemini 2.5 Pro && Gemini 2.5 Flash 模型升级 → Google 彻底打了个翻身仗,全方位领先

| 模型 | Google I/O 2025 ● Gemma 3n 多模态模型,移动端优化(开源)

| 图像 | Google I/O 2025 ● Imagen 4 图像生成模型,实现 2K 高分辨率

| 音频 | Google I/O 2025 ● Lyria 2 音乐生成模型 && Lyria RealTime 交互式音乐生成应用 → 只能生成没有人声的音乐,无法生成歌曲

| 视频 | Google I/O 2025 ● Veo 3 视频生成模型,进入音画同步时代 → 第一个可以自动生成人物配音的视频模型,AI 视频不再是哑剧

| 应用 | Google I/O 2025 ● Flow 电影级影视片段制作工具,集成了 Google 最先进模型

| 应用 | Google I/O 2025 ● SynthID Detector 识别 AI 生成内容的检测平台

| 应用 | Google I/O 2025 ● Jules 异步编程智能体,在云端虚拟机中独立执行任务

| 应用 | Google I/O 2025 ● Stitch 基于自然语言的 UI 设计代码生成工具

| 应用 | Google I/O 2025 ● AI Mode 正式登录 Google Search,搜索从此「千人千面」 → 如此庞大的日活下,背后的算力成本应该相当高昂

5 月 21 日

| 模型 | Mistral AI X All Hands AI ● Devstral 编程模型,专注于复杂的软件工程任务 → 又一个专注于 Coding 的小模型

| 图像 | 腾讯 ● 混元游戏视觉生成平台 && Hunyuan-Game 工业级游戏内容资产生成模型

| 机器人 | NVIDIA ● Cosmos-Reason1-7B 面向机器人技术的视觉-语言推理模型(开源)

| 应用 | 字节跳动 ● 飞书知识问答功能上线,整合企业内资源实现智能解答 → 企业内部的 Deep Search

| 应用 | 腾讯 ● 腾讯云智能体开发平台(TCADP)上线 → 一个类似 Coze 和 Dify 的平台,但是非常简陋,看不出有什么竞争力

| 融资 | 面壁智能完成新一轮数亿元融资 → 全球为数不多专注端侧小模型的企业

5 月 22 日

| 音频 | Kyutai ● Unmute.sh 语音系统,可以为任何文本大语言模型添加语音功能(即将开源)

| 应用 | Mistral AI ● Document AI 高精度文档解析工具,成本低至 1 美元 2000 页 → 一个基于 OCR 模型 API 实现的简单应用

| 应用 | 昆仑万维 ● Skywork Super Agents 天工超级智能体上线 → 又一个类 Manus 应用,做 PPT 尤其出色

| 融资 | LMArena ● 完成 1 亿美元种子轮融资,估值达到 6 亿美元

| 融资 | OpenAI 以 65 亿美元收购 io,进军 AI 硬件领域

| 新闻 | Microsoft Build 2025 ● 迈向 AI Agent 时代,构建 Open Agentic Web 成为新愿景

5 月 23 日

| 模型 | Anthropic ● Claude Opus 4 和 Claude Sonnet 4 推理模型,专注持续性推理与复杂任务执行 → 重夺编程模型之王的宝座

| 模型 | 上海人工智能实验室 ● 书生·思客(InternThinker)围棋推理模型 → 用 LLM 下围棋,有一种奇特的复古感

| 模型 | 字节跳动 ● Dolphin 文档解析模型,高效精准处理复杂文档(开源)→ 非常利好本地化 RAG

5 月 24 日(无)
5 月 25 日

| 机器人 | 《CMG 世界机器人大赛·系列赛》机甲格斗擂台赛,展现高难度格斗技术 → 比上个月马拉松比赛的机器人,看起来强多了

5 月 26 日

| 模型 | 红杉中国 ● xbench 基准测试,聚焦真实场景效用与垂类智能体评测(开源)

5 月 27 日

| 音频 | 字节跳动 ● 豆包·语音播客模型(预告)&& 扣子空间 Agent 播客制作功能上线 → 语音播客模型的语气非常真实自然,中文领域最佳

5 月 28 日

| 模型 | Mistral AI ● Codestral Embed 代码嵌入模型,性能超越主流方案 → 连 Embedding 模型都有为代码设计的了,Coding 赛道真的火

| 图像 | 字节跳动 ● BAGEL 统一多模态理解与生成模型(开源)→ 人物一致性比 gpt-image-1 强, 但其他都远远不如

| 视频 | 腾讯 ● HunyuanVideo-Avatar 语音数字人模型,图像+音频=说话 & 唱歌的数字人(开源)

| 3 D | Odyssey实时 3D 互动视频技术(研究预览),延迟仅 40 毫秒,成本低至 1 美元/小时

| 机器人 | 北京人形机器人创新中心牵头制定全球首个《人形机器人智能化分级》→ 人形机器人的发展,有一个标准了

| 应用 | 昆仑万维 ● Opera Neon 智能 Agent 浏览器,开启内测

5 月 29 日

| 模型 | DeepSeek ● DeepSeek-R1-0528 推理模型「小升级」,思考更深,推理更强 → 还是基于 deepseek-v3 旧版训练的,并不是基于最新的 v3 训练的

| 视频 | 手 ● 可灵 2.1 && 可灵 2.1 大师版上线,理解力与生成速度全面升级

| 融资 | Grammarly 完成 10 亿美元融资,加速 AI 产品升级与平台化转型 → 一个看似简单的语法纠错需求,也可以生长出巨头

5 月 30 日

| 模型 | 字节跳动 ● Web-Bench 编程能力基准测试,评估模型在复杂 Web 全栈任务中的表现(开源)→ 2.1 终于有普通版了,性价比不错,可以大规模商用了

| 模型 | 小米 ● Xiaomi MiMo-VL 多模态大模型(开源)→ 小米开始在大模型领域发力,表现都比较亮眼

| 图像 | Black Forest Labs ● FLUX.1 Kontext 图像生成与编辑模型,角色一致性能力亮眼 → 解决了 gpt-image-1 人物一致性的问题,图像编辑领域的 New King

| 音频 | ElevenLabs ● Conversational AI 2.0 企业级语音 Agent 平台

| 应用 | Perplexity ● Labs 智能体创作平台,一站式生成报告、演示与可视化项目

5 月 31 日

| 3 D | VAST ● Tripo Studio 工作站上线,实现一站式 3D 建模 → 从模型到应用,Tripo 要打造 3D 领域的完整生态

| 应用 | Google ● Gemini App(应用)近期重要更新汇总

| 应用 | OpenAI ● ChatGPT 近期重要更新汇总


(完整版指路:302.AI 公众号)

37aeacb6-4671-46c5-91d9-f274a3b2afc0.png