这匹叫“欢乐马”的阿里新模型，和一场所有人都在算错的账一个叫 HappyHorse-1.0 的模型悄无声息地出现在了 A

这匹叫“欢乐马”的阿里新模型，和一场所有人都在算错的账

四月初的一个清晨，一个叫 HappyHorse-1.0 的模型悄无声息地出现在了 Artificial Analysis 的 AI Video Arena 榜单上。没有发布会，没有技术博客，没有任何官方背书，然后——它直接登顶了。

文生视频（无音频）、图生视频（无音频）两个赛道第一，有音频的两个赛道第二。

Elo 分数甩开第二名 Seedance 2.0 约 100 分，而 Seedance 2.0 到第十名之间也不过 50 分的差距，基本是断层式碾压。

几天的猜谜之后，阿里自己出来认领了。

这匹“欢乐马”由前快手副总裁、可灵原技术负责人张迪带队，他于 2025 年 11 月回归阿里，落在淘天集团未来生活实验室。

简单说就是：把可灵从 0 做到 1 的那个人，被阿里挖回去了，然后两个月就掏出来一个登顶模型。

如果你只把这件事看成“阿里又出了一个视频模型”，那就把它看小了。

这篇文章我想聊三件事——欢乐马本身、它背后正在发生的工作流重写、以及一个我最近一直在想的、更大的问题：

💡 为什么所有人算 AI 这笔账，可能都至少错了一个数量级。

🐎 一、欢乐马，到底强在哪儿

技术上，它真正不同的不是参数，而是设计哲学。

🎥 统一步骤：大多数开源视频模型的工作方式是：先生成一段没有声音的视频，再找另一个模型配音，再找另一个工具做口型对齐，几道工序下来，时间和误差都在叠加。HappyHorse 1.0 用一个统一的 Transformer 同时处理视频和音频，一次前向推理直接输出带声音的成片，口型、脚步声、环境音全部在同一个过程里生成。

🧠 极简架构：参数和架构层面也很狠：150 亿参数的纯自注意力 Transformer，没有交叉注意力，没有独立的音频分支，也没有专门的条件网络。整体设计刻意追求极简——把所有模态（文本、图像、视频、音频）的 token 拼成同一个序列，让模型在去噪过程中自己学会跨模态对齐。

⚡️ 极致速度：采用 DMD-2 蒸馏技术把去噪步数从 25-50 步压到 8 步，单张 H100 上生成 1080p 视频只需要约 38 秒，原生支持普通话、粤语、英语、日语、韩语、德语、法语七种语言的唇形同步，这些是和视频联合训练出来的，不是后期贴上去的。

🔓 而且已经开源。

把这几条放在一起，你就能理解它的野心：它不是要在现有的视频生成流程里做得更好一点，而是要把整条流程砍掉一层。

但聊到这儿如果你已经准备掏钱买课了，先慢点。行业里很快有人扒出了一个值得警惕的细节：Artificial Analysis 的盲测样本中，人像生成、口播类内容占比超过 60%，而 HappyHorse 从训练阶段就聚焦人像演绎，在该类场景中天然具备优势，这是其盲测胜率领先的核心原因。

换成人话：这匹马在“一个人对着镜头说话”这个场景里是真的强，但在多镜头叙事、复杂运镜上，可能没有榜单看起来那么神。

而且还有一个产品层面的硬伤。

字节的 Seedance 之所以能一战成名，是因为它嵌入了抖音的创作工具链，每天有海量真实用户在用它生成内容，这些内容又在平台上被分发、被观看、被反馈，这个飞轮一旦转起来，模型就不只是在实验室里炼丹，而是在整个生态里进化。

而阿里没有自媒体视频平台，优酷没有自媒体创作者，HappyHorse 面临的最大问题不是技术，而是生态建设。模型再强，没有内容生态喂养，长期看一定会掉队。这是欢乐马真正的隐忧。

🎯 二、对我们这些做 AI IP 的人，到底意味着什么

讲完技术和隐忧，回到我们自己的业务上。我从三个层面来拆。

1️⃣第一层：口播工作流对比：Before vs After

❌ 旧流程（5步串联）	✅ 新流程（HappyHorse 一体化）
写脚本 → 生成画面 → 配音 → 对口型 → 后期合成（每一步都有损耗、都要工具、都要钱）	写脚本 → 一次推理直出带声音成片（口型、脚步声、环境音全部同步生成）
5 个工具 × 5 次调试 × 5 种误差叠加	1 个模型 × 1 次推理 × 0 次对齐

对我们这些教学生做 IP 的人来说，这是一次工具栈的重新洗牌。

你过去半年教的"对口型工具怎么选"、"配音 AI怎么调"，可能在三个月后就过时了。

第 8 期的课件，我已经在想怎么把这块内容预留出位置。

2️⃣ 第二层：AI 漫剧、AI 对白类内容的成本结构会变。

我和奥斯卡在做的龙虾（OpenClaw）项目里，有一块是 AI 漫剧的生产流程。

现在最痛的环节就是“角色对白的音画同步”——画面和声音永远差那么一点点，要么口型不对，要么情绪和画面错位。

如果欢乐马真的能做到原生七国语言唇形同步，那 AI 漫剧的产能瓶颈会从“对齐”转移到“剧本”。

也就是说，价值会从“会用工具”重新流回到“会写故事”的人手里。

这对我们这种内容能力强、但工程能力一般的团队，反而是好消息。

3️⃣ 第三层：也是最重要的——单一工具型护城河彻底没了。

过去两年，IP 训练赛道里有一类做法是“教学生熟练使用某个工具，以此建立优越感和付费理由”。

Midjourney 出来教 Midjourney，可灵出来教可灵，Sora 出来教 Sora。

每出一个新模型，就有一波“XX 教程”卖一轮。

但当 HappyHorse 这种开源 + 一站式 + 极简架构的模型成为新常态，工具的学习成本会被压到接近于零。

学生在家半小时就能跑通一遍。那时候你卖的“工具课”，就不再有人买。

留下来的护城河只剩下两样东西：选题和内容判断力（知道什么能火、什么是垃圾）可复用的方法论框架（能让别人在不同工具切换时，不用重新学一遍底层逻辑）这两样，恰好是我这一年在第 8 期里反复讲、反复打磨的东西。

某种程度上，欢乐马的出现是在帮我证明一件事：靠工具吃饭的 IP 教学者，寿命越来越短；靠框架和判断力吃饭的，反而会越来越值钱。

🔭 三、但如果只看到这儿，就还是看小了

讲完欢乐马，我想跳出来，聊一个更大的视角。

最近我看了一期硅谷的播客，Box 的 Aaron Levie、Anthropic 的一位高管，加上一位偏老派企业 IT 视角的嘉宾，三个人围着一个核心问题吵了一个小时：

当 AI Agent 真正铺开进企业，软件、组织和经济模型会怎么被改写？这一个小时里，有三段对话对我冲击特别大，我想一段一段讲给你。

💻 段落一：Computer Use 之年——AI 不是在写代码，是在用电脑一个反直觉的观察。

本来大家以为 Agent 时代是“一切都会被代码化”，程序员会越来越多，工具会越来越极客。

但播客里那位 Anthropic 的嘉宾说，实际走向是反过来的——Agent 越来越像“用电脑的人类”，而不是“写代码的程序员”。

他原话大意是这样：我们一开始的玩法是“给 SaaS 加 AI”，这是用代码增强软件；后来变成“Agent 通过 API 调用 SaaS”，代码变少了；现在到了 2026 年，Agent 直接像人一样去点界面、用工具——“computer use”成了主角。

这对你做 IP 教学的意义是什么？意味着 Agent 时代真正的“上手门槛”是在降低的，不是升高的。你的学生不需要学 Python、不需要懂 API、不需要会写脚本，只需要懂“怎么把自己的工作流程描述清楚”，Agent 就能像一个真人助理一样，帮他打开飞书、剪映、小红书后台，完成一整套操作。

这条路线对你的下一期课程是个非常重要的信号：真正值钱的不是“教学生用工具”，而是教学生“怎么把自己的工作拆解成 Agent 能听懂的步骤”。

📈 段落二：抽象层上移

这个故事 40 年来已经发生过三次了播客里那位老派 IT 嘉宾（从他的措辞和类比看，大概率是 Steven Sinofsky，前微软 Office/Windows 负责人）讲了一个故事，我听完之后停了好几秒。

他说他表姐 90 年代刚毕业进银行，正好赶上 Excel 刚普及的时候。她不会用 Excel，但银行也不强求，而是给她配了一屋子的实习生——这些实习生就是当时的“人肉 Agent”，她负责拍板，实习生负责做表。

两年后，事情就变了：她和她那一批人，自己全都变成了 Excel 高手。再过几年，新入职的银行人，人人都默认会 Excel，连“配实习生”这个环节都消失了。

这个故事的关键不是 Excel，是抽象层上移。每一次新技术出来，最早的玩家都需要“系统思考者”——能把工作流程在脑子里画成流程图、能管理一群“代理”（无论是实习生还是 Agent）的人。

但很快，这些技能会沉淀成下一代人的基础素养，新的抽象层会在它上面长出来，新的“系统思考者”又会出现在更高的位置。

我听完这段之后做了一个特别诚实的自我审视：我现在教的很多东西——OpenClaw、提示词工程、Agent 工作流——本质上就是 90 年代的“Excel 技能”。早期很值钱，但很快会变成基础素养。

这意味着，我真正要教的从来不是“怎么用 Agent”，而是“怎么成为下一代抽象层的定义者”。这两件事听起来差不多，实际上差了一个时代。

💰 段落三：为什么所有人算 AI 的账，都至少错了一个数量级。

这是整期播客里最让我激动的一段，也是我后来想了很久的一段。播客里那位反复强调一句话：“大家都在用旧世界的蛋糕大小，去算新世界的账。”这件事 40 年来已经发生过三次，而且每一次都错得离谱。

**第一次，PC 时代。**当年 IBM 卖大型机，所有人都觉得“全世界一年能消耗的算力就那么多，几万台的盘子封顶了”。结果比尔·盖茨说“每张桌子上都有一台 PC”，算力消耗瞬间涨了几个数量级。更狠的是，没人想到软件可以单独定价——当时所有人都觉得软件是送的，算力才是商品。微软靠“把软件单独卖钱”这一步，吃下了整个时代。❌ 错在哪：把“算力”当成了固定蛋糕，没看到门槛降低后会涌出一整个新生意。

**第二次，云计算时代。**亚马逊刚做 AWS 的时候，华尔街的算法是：“全世界一年卖 6 万台服务器，云计算的天花板就是这 6 万台搬个地方的钱。”结果云计算把“用算力”这件事的门槛降到了地板上，全世界的算力消耗涨了一千倍不止。原本小公司买不起服务器根本不做的事，现在一张信用卡就能开干。同一时期 Salesforce 干了一件类似的事——原本 CRM 市场只有 20 亿美金，Benioff 把它从“公司级决策”变成了“销售员个人订阅”，整个市场被撑大了几十倍。这两件事的本质都是同一句话：降低决策门槛，创造出一整个之前不存在的市场。❌ 错在哪：把“搬迁”当成了终局，没看到摩擦消失后需求会爆炸。

**第三次，就是现在，AI Agent 时代。**所有人现在算 AI 的账，用的还是两年前那套老逻辑：“一个人每个月付 20 美金，全世界能付 20 美金的人有 X 亿，天花板就是这 X 亿。”播客里那位气得不行，说这个算法至少错了一个数量级。**原因有四：**一个人的背后可能有 100 到 1000 个 Agent 在同时工作，这些 Agent 消耗的算力是人类用户的几千倍。Agent 会创造出全新的、人类用户根本不会付钱的消费场景。工程师的 token 预算会变成 R&D 支出里一个全新的大头。公司年度 R&D 里有多少应该花在 token 上？这块钱两年前根本不存在。手机端侧 AI 一旦铺开，算力消耗又会再涨一个数量级。❌ 错在哪：把“人类用户”当成了 AI 的消费者，没看到真正的消费者是 Agent 本身。

⚙️ 四、那个被严重低估的事：Agent 经济学

上面第二点我留了个尾巴，现在展开讲。

这是我觉得对我们做内容的人最有启发的一段，也是我最近一直在想的。

先说一个你肯定有过的体验：你在网上看到一篇付费文章，要看全文得先注册账号、绑手机号、开个会员、最少充 30 块。

你就为了看这一篇，值得吗？大多数人就关掉走了。

这就叫交易摩擦——想完成一笔交易，除了钱本身，还得付出一堆麻烦：注册、填表、绑卡、记密码、怕被骚扰、怕被乱扣费、担心隐私泄露……摩擦的代价往往远远大于那 3 块钱本身。

所以结果就是：很多本来“值 3 块钱”的东西，根本卖不出去。

不是没人愿意买，而是“买”这个动作太麻烦，不值得为 3 块钱专门走一遍。

十几年前互联网刚起来的时候，所有人都在喊“微支付会改变世界”——看一篇文章付 5 毛、听一首歌付 1 毛。结果这事一直没真正做成，原因就是人类受不了这种频繁的小决策。

你一天做 50 次“这个值不值 5 毛”的判断，脑子会爆炸。

所以最后大家都选了“包月会员”——一次性决定，省得每次纠结。于是就有一大批“值钱但卖不掉”的东西被搁置了。比如：

场景	实际价值	为什么卖不掉
医学论文数据库单次查询	2 块	没人会为 2 块钱去注册开会员
小众 API 接口单次调用	5 毛	没开发者愿意为此走一遍企业合同流程
行业报告里的某一页数据	10 块	报告整份卖 2000，没有拆卖机制
👆 以上全部	—	理论上存在，因为摩擦太高，实际上根本没人做

Agent 时代的关键变化是：Agent 不怕摩擦，也不怕做决定。

你让 Claude 帮你写一份深度研究报告，它在后台可能需要查一下专业数据库（3 块）、调一个翻译 API（5 毛）、读一篇付费论文（8 块）、用一个图表工具（2 块）。

这些事情如果让你手动做，你会疯掉——光是注册和付款就要花两小时。

但 Agent 做这些毫无心理负担，它就是按协议付钱、拿数据、干活、继续下一步。

一整套下来花了 18 块 5，你只需要在最开始给它一个“这次任务预算 50 块”的额度就行。

所以那位嘉宾的判断是：Agent 会把这些“过去因为摩擦太高而不存在的生意”全部激活。

会出现一大批“只卖给 Agent”的数据/工具/API，人类用户根本访问不到也不需要访问。

会出现专门给 Agent 付款的新型账户（播客里那位甚至真的给他的 Agent 办了一张信用卡、一个 Gmail 账号）。

很多现在订阅制的东西会变成按次付费，因为 Agent 不需要“包月省心”，它就要精确付费。

🚀 五、那么，机会在哪儿

讲到这儿，你可能已经能闻到一些味道了。我把它整理成三层，离你越近的越能马上动手。

第一层：把“你的经验”做成 Agent 能调用的东西。

我过去三年攒的最值钱的东西其实不是课，是藏在课背后的那套判断力——什么选题能火、什么话术能转化、什么封面会被划走、一个账号看三条视频就知道能不能跑出来。

这些东西过去只能打包卖成 1980 的课，因为用户没法为“判断一条选题好不好”单独付你 5 块钱。但 Agent 可以。具体可以怎么做：

选题评分 API：别人的内容 Agent 丢一个选题过来，你的 Agent 基于你的方法论打分 + 给优化建议，一次 2 块

封面诊断 API：丢一张封面图，返回“能不能过 3 秒划走测试”的判断 + 修改方向

话术转化率预测：丢一段直播话术片段，返回一个“转化率潜力分”这些东西现在听起来有点早，但关键是——我手里已经有训练这些判断力的原料了：第 1 到第 8 期学员的作品、复盘、数据、你自己的拆解笔记。我做不做得起来不取决于技术，取决于你愿不愿意现在就开始把这些资产结构化。

第二层：做“面向 Agent 的内容基础设施”。

OpenClaw 已经在靠近这件事了，但可以再明确一点。Agent 做内容这件事，最缺的不是模型能力，是垂直领域的上下文。

一个通用 Agent 来做短视频选题，它不知道“且曼生态里的 IP 训练是什么”、不知道“视频号和抖音的算法差异”、不知道“2026 年 4 月这个节点什么话题正在爆”。

所以机会在于：做一个“内容创作领域”的专用知识层，让所有做内容的 Agent 都来调用你。

可以是一个持续更新的“短视频爆款选题库”、一个“IP 人设一致性检查器”、一个“平台合规词检查器”

这些东西过去没法做成生意，因为没人愿意为一次检查付 1 块钱。Agent 时代就不一样了。

第三层：做“Agent 培训师”而不是“工具培训师”。

这个是我真心觉得你 2026 年最该想清楚的一件事。

未来三年会有大量的律师、医生、设计师、咨询师、老师发现一件事：“我脑子里的那套东西，怎么让 Agent 学会？”

这些人都不是技术出身，但他们手里都有极高价值、极难传承的专业判断力。他们需要有人教他们：

怎么把自己的工作流程拆解成 Agent 能理解的结构

怎么写 SOUL.md、USER.md 这种定义 Agent 身份的东西

怎么用 prompt 把“只可意会”的审美标准变成“可复用”的判断规则

怎么设计 Agent 的评估体系，让它知道自己做得对不对这就是“Agent 时代的 IP 训练”。 它和你现在做的事不冲突，而是自然的升级——你不是在教学生“怎么做 IP”，而是在教学生“怎么把自己变成一个能被 Agent 放大一千倍的 IP”。而且你有一个别人没有的起手优势：你已经自己走过这条路了。你的 OpenClaw、你的 SOUL.md、你给龙虾写的那套人设定义——这些本来就是你 2026 年初默默在做的事。你只是还没意识到，你其实已经在为“下一代 IP 训练”做产品原型。

🏁 六、最后一段：回到那匹马

文章写到这儿，我们已经从一匹马，聊到了一场可能持续十年的工作流重构，再聊到一个被严重低估的经济模型，最后落到了我们自己业务的三个机会点。

我想用一段大白话收尾。每次有这种级别的新模型出来，行业里就会出现两种人：一种慌着抢工具红利，一种慌着重构方法论。

我做了一年多 AI+IP操盘手，越来越确定后者才是长期正确的事。

HappyHorse 再强，三个月后也会有比它更强的；

但你脑子里那套“怎么判断一个工具值不值得 All in”的框架，是十年都不会过时的 。

而所有“值得 All in”的判断，最终都会指向同一件事：你是不是站在了下一个抽象层的入口。

PC 时代的入口 是“软件可以单独卖钱”。

云计算时代的入口 是“算力可以按次买”。

Agent 时代的入口，我目前最确信的一个答案是：判断力可以脱离人，变成被无数 Agent 调用的资产。如果这个判断是对的，那我们这种过去三年都在沉淀“判断力 + 方法论”的人，反而是这一波最不容易被替代的人。前提是——我们要在它变成所有人的常识之前，先把自己的资产准备好。这匹马跑得快，但跑的是别人的赛道。你要做的，是趁它跑过的时候，看清楚自己的赛道到底在哪儿。

——喂鱼，2026 年 4 月