这匹叫“欢乐马”的阿里新模型,和一场所有人都在算错的账

0 阅读19分钟

这匹叫“欢乐马”的阿里新模型,和一场所有人都在算错的账

四月初的一个清晨,一个叫 HappyHorse-1.0 的模型悄无声息地出现在了 Artificial Analysis 的 AI Video Arena 榜单上。没有发布会,没有技术博客,没有任何官方背书,然后——它直接登顶了。

文生视频(无音频)、图生视频(无音频)两个赛道第一,有音频的两个赛道第二。

Elo 分数甩开第二名 Seedance 2.0 约 100 分,而 Seedance 2.0 到第十名之间也不过 50 分的差距,基本是断层式碾压。

几天的猜谜之后,阿里自己出来认领了。

这匹“欢乐马”由前快手副总裁、可灵原技术负责人张迪带队,他于 2025 年 11 月回归阿里,落在淘天集团未来生活实验室。

简单说就是:把可灵从 0 做到 1 的那个人,被阿里挖回去了,然后两个月就掏出来一个登顶模型

如果你只把这件事看成“阿里又出了一个视频模型”,那就把它看小了。

这篇文章我想聊三件事——欢乐马本身、它背后正在发生的工作流重写、以及一个我最近一直在想的、更大的问题:

💡 为什么所有人算 AI 这笔账,可能都至少错了一个数量级。

🐎 一、欢乐马,到底强在哪儿

技术上,它真正不同的不是参数,而是设计哲学。

🎥 统一步骤:大多数开源视频模型的工作方式是:先生成一段没有声音的视频,再找另一个模型配音,再找另一个工具做口型对齐,几道工序下来,时间和误差都在叠加。HappyHorse 1.0 用一个统一的 Transformer 同时处理视频和音频,一次前向推理直接输出带声音的成片,口型、脚步声、环境音全部在同一个过程里生成。

🧠 极简架构:参数和架构层面也很狠:150 亿参数的纯自注意力 Transformer,没有交叉注意力,没有独立的音频分支,也没有专门的条件网络。整体设计刻意追求极简——把所有模态(文本、图像、视频、音频)的 token 拼成同一个序列,让模型在去噪过程中自己学会跨模态对齐。

⚡️ 极致速度:采用 DMD-2 蒸馏技术把去噪步数从 25-50 步压到 8 步,单张 H100 上生成 1080p 视频只需要约 38 秒,原生支持普通话、粤语、英语、日语、韩语、德语、法语七种语言的唇形同步,这些是和视频联合训练出来的,不是后期贴上去的。

🔓 而且已经开源。

把这几条放在一起,你就能理解它的野心:它不是要在现有的视频生成流程里做得更好一点,而是要把整条流程砍掉一层。

但聊到这儿如果你已经准备掏钱买课了,先慢点。行业里很快有人扒出了一个值得警惕的细节:Artificial Analysis 的盲测样本中,人像生成、口播类内容占比超过 60%,而 HappyHorse 从训练阶段就聚焦人像演绎,在该类场景中天然具备优势,这是其盲测胜率领先的核心原因。

换成人话:这匹马在“一个人对着镜头说话”这个场景里是真的强,但在多镜头叙事、复杂运镜上,可能没有榜单看起来那么神

而且还有一个产品层面的硬伤。

字节的 Seedance 之所以能一战成名,是因为它嵌入了抖音的创作工具链,每天有海量真实用户在用它生成内容,这些内容又在平台上被分发、被观看、被反馈,这个飞轮一旦转起来,模型就不只是在实验室里炼丹,而是在整个生态里进化。

而阿里没有自媒体视频平台,优酷没有自媒体创作者,HappyHorse 面临的最大问题不是技术,而是生态建设。模型再强,没有内容生态喂养,长期看一定会掉队。这是欢乐马真正的隐忧。

🎯 二、对我们这些做 AI IP 的人,到底意味着什么

讲完技术和隐忧,回到我们自己的业务上。我从三个层面来拆。

1️⃣第一层:口播工作流对比:Before vs After

❌ 旧流程(5步串联)✅ 新流程(HappyHorse 一体化)
写脚本 → 生成画面 → 配音 → 对口型 → 后期合成(每一步都有损耗、都要工具、都要钱)写脚本 → 一次推理直出带声音成片(口型、脚步声、环境音全部同步生成)
5 个工具 × 5 次调试 × 5 种误差叠加1 个模型 × 1 次推理 × 0 次对齐

对我们这些教学生做 IP 的人来说,这是一次工具栈的重新洗牌。

你过去半年教的"对口型工具怎么选"、"配音 AI怎么调",可能在三个月后就过时了。

第 8 期的课件,我已经在想怎么把这块内容预留出位置。

2️⃣ 第二层:AI 漫剧、AI 对白类内容的成本结构会变。

我和奥斯卡在做的龙虾(OpenClaw)项目里,有一块是 AI 漫剧的生产流程。

现在最痛的环节就是“角色对白的音画同步”——画面和声音永远差那么一点点,要么口型不对,要么情绪和画面错位。

如果欢乐马真的能做到原生七国语言唇形同步,那 AI 漫剧的产能瓶颈会从“对齐”转移到“剧本”。

也就是说,价值会从“会用工具”重新流回到“会写故事”的人手里。

这对我们这种内容能力强、但工程能力一般的团队,反而是好消息。

3️⃣ 第三层:也是最重要的——单一工具型护城河彻底没了。

过去两年,IP 训练赛道里有一类做法是“教学生熟练使用某个工具,以此建立优越感和付费理由”。

Midjourney 出来教 Midjourney,可灵出来教可灵,Sora 出来教 Sora。

每出一个新模型,就有一波“XX 教程”卖一轮。

但当 HappyHorse 这种开源 + 一站式 + 极简架构的模型成为新常态,工具的学习成本会被压到接近于零。

学生在家半小时就能跑通一遍。那时候你卖的“工具课”,就不再有人买。

留下来的护城河只剩下两样东西:选题和内容判断力(知道什么能火、什么是垃圾)可复用的方法论框架(能让别人在不同工具切换时,不用重新学一遍底层逻辑)这两样,恰好是我这一年在第 8 期里反复讲、反复打磨的东西。

某种程度上,欢乐马的出现是在帮我证明一件事:靠工具吃饭的 IP 教学者,寿命越来越短;靠框架和判断力吃饭的,反而会越来越值钱

🔭 三、但如果只看到这儿,就还是看小了

讲完欢乐马,我想跳出来,聊一个更大的视角。

最近我看了一期硅谷的播客,Box 的 Aaron Levie、Anthropic 的一位高管,加上一位偏老派企业 IT 视角的嘉宾,三个人围着一个核心问题吵了一个小时:

当 AI Agent 真正铺开进企业,软件、组织和经济模型会怎么被改写?这一个小时里,有三段对话对我冲击特别大,我想一段一段讲给你。

💻 段落一:Computer Use 之年——AI 不是在写代码,是在用电脑一个反直觉的观察。

本来大家以为 Agent 时代是“一切都会被代码化”,程序员会越来越多,工具会越来越极客。

但播客里那位 Anthropic 的嘉宾说,实际走向是反过来的——Agent 越来越像“用电脑的人类”,而不是“写代码的程序员”。

他原话大意是这样:我们一开始的玩法是“给 SaaS 加 AI”,这是用代码增强软件;后来变成“Agent 通过 API 调用 SaaS”,代码变少了;现在到了 2026 年,Agent 直接像人一样去点界面、用工具——“computer use”成了主角。

这对你做 IP 教学的意义是什么?意味着 Agent 时代真正的“上手门槛”是在降低的,不是升高的。你的学生不需要学 Python、不需要懂 API、不需要会写脚本,只需要懂“怎么把自己的工作流程描述清楚”,Agent 就能像一个真人助理一样,帮他打开飞书、剪映、小红书后台,完成一整套操作。

这条路线对你的下一期课程是个非常重要的信号:真正值钱的不是“教学生用工具”,而是教学生“怎么把自己的工作拆解成 Agent 能听懂的步骤”。

📈 段落二:抽象层上移

这个故事 40 年来已经发生过三次了播客里那位老派 IT 嘉宾(从他的措辞和类比看,大概率是 Steven Sinofsky,前微软 Office/Windows 负责人)讲了一个故事,我听完之后停了好几秒。

他说他表姐 90 年代刚毕业进银行,正好赶上 Excel 刚普及的时候。她不会用 Excel,但银行也不强求,而是给她配了一屋子的实习生——这些实习生就是当时的“人肉 Agent”,她负责拍板,实习生负责做表。

两年后,事情就变了:她和她那一批人,自己全都变成了 Excel 高手。再过几年,新入职的银行人,人人都默认会 Excel,连“配实习生”这个环节都消失了。

这个故事的关键不是 Excel,是抽象层上移。每一次新技术出来,最早的玩家都需要“系统思考者”——能把工作流程在脑子里画成流程图、能管理一群“代理”(无论是实习生还是 Agent)的人。

但很快,这些技能会沉淀成下一代人的基础素养,新的抽象层会在它上面长出来,新的“系统思考者”又会出现在更高的位置。

我听完这段之后做了一个特别诚实的自我审视:我现在教的很多东西——OpenClaw、提示词工程、Agent 工作流——本质上就是 90 年代的“Excel 技能”。早期很值钱,但很快会变成基础素养。

这意味着,我真正要教的从来不是“怎么用 Agent”,而是“怎么成为下一代抽象层的定义者”。这两件事听起来差不多,实际上差了一个时代。

💰 段落三:为什么所有人算 AI 的账,都至少错了一个数量级。

这是整期播客里最让我激动的一段,也是我后来想了很久的一段。播客里那位反复强调一句话:“大家都在用旧世界的蛋糕大小,去算新世界的账。”这件事 40 年来已经发生过三次,而且每一次都错得离谱。

**第一次,PC 时代。**当年 IBM 卖大型机,所有人都觉得“全世界一年能消耗的算力就那么多,几万台的盘子封顶了”。结果比尔·盖茨说“每张桌子上都有一台 PC”,算力消耗瞬间涨了几个数量级。更狠的是,没人想到软件可以单独定价——当时所有人都觉得软件是送的,算力才是商品。微软靠“把软件单独卖钱”这一步,吃下了整个时代。❌ 错在哪:把“算力”当成了固定蛋糕,没看到门槛降低后会涌出一整个新生意。
**第二次,云计算时代。**亚马逊刚做 AWS 的时候,华尔街的算法是:“全世界一年卖 6 万台服务器,云计算的天花板就是这 6 万台搬个地方的钱。”结果云计算把“用算力”这件事的门槛降到了地板上,全世界的算力消耗涨了一千倍不止。原本小公司买不起服务器根本不做的事,现在一张信用卡就能开干。同一时期 Salesforce 干了一件类似的事——原本 CRM 市场只有 20 亿美金,Benioff 把它从“公司级决策”变成了“销售员个人订阅”,整个市场被撑大了几十倍。这两件事的本质都是同一句话:降低决策门槛,创造出一整个之前不存在的市场。❌ 错在哪:把“搬迁”当成了终局,没看到摩擦消失后需求会爆炸
**第三次,就是现在,AI Agent 时代。**所有人现在算 AI 的账,用的还是两年前那套老逻辑:“一个人每个月付 20 美金,全世界能付 20 美金的人有 X 亿,天花板就是这 X 亿。”播客里那位气得不行,说这个算法至少错了一个数量级。**原因有四:**一个人的背后可能有 100 到 1000 个 Agent 在同时工作,这些 Agent 消耗的算力是人类用户的几千倍。Agent 会创造出全新的、人类用户根本不会付钱的消费场景工程师的 token 预算会变成 R&D 支出里一个全新的大头。公司年度 R&D 里有多少应该花在 token 上?这块钱两年前根本不存在。手机端侧 AI 一旦铺开,算力消耗又会再涨一个数量级。❌ 错在哪:把“人类用户”当成了 AI 的消费者,没看到真正的消费者是 Agent 本身

⚙️ 四、那个被严重低估的事:Agent 经济学

上面第二点我留了个尾巴,现在展开讲。

这是我觉得对我们做内容的人最有启发的一段,也是我最近一直在想的。

先说一个你肯定有过的体验:你在网上看到一篇付费文章,要看全文得先注册账号、绑手机号、开个会员、最少充 30 块。

你就为了看这一篇,值得吗?大多数人就关掉走了。

这就叫交易摩擦——想完成一笔交易,除了钱本身,还得付出一堆麻烦:注册、填表、绑卡、记密码、怕被骚扰、怕被乱扣费、担心隐私泄露……摩擦的代价往往远远大于那 3 块钱本身。

所以结果就是:很多本来“值 3 块钱”的东西,根本卖不出去

不是没人愿意买,而是“买”这个动作太麻烦,不值得为 3 块钱专门走一遍。

十几年前互联网刚起来的时候,所有人都在喊“微支付会改变世界”——看一篇文章付 5 毛、听一首歌付 1 毛。结果这事一直没真正做成,原因就是人类受不了这种频繁的小决策

你一天做 50 次“这个值不值 5 毛”的判断,脑子会爆炸。

所以最后大家都选了“包月会员”——一次性决定,省得每次纠结。于是就有一大批“值钱但卖不掉”的东西被搁置了。比如:

场景实际价值为什么卖不掉
医学论文数据库单次查询2 块没人会为 2 块钱去注册开会员
小众 API 接口单次调用5 毛没开发者愿意为此走一遍企业合同流程
行业报告里的某一页数据10 块报告整份卖 2000,没有拆卖机制
👆 以上全部理论上存在,因为摩擦太高,实际上根本没人做

Agent 时代的关键变化是:Agent 不怕摩擦,也不怕做决定。

你让 Claude 帮你写一份深度研究报告,它在后台可能需要查一下专业数据库(3 块)、调一个翻译 API(5 毛)、读一篇付费论文(8 块)、用一个图表工具(2 块)。

这些事情如果让你手动做,你会疯掉——光是注册和付款就要花两小时。

但 Agent 做这些毫无心理负担,它就是按协议付钱、拿数据、干活、继续下一步。

一整套下来花了 18 块 5,你只需要在最开始给它一个“这次任务预算 50 块”的额度就行。

所以那位嘉宾的判断是:Agent 会把这些“过去因为摩擦太高而不存在的生意”全部激活。

会出现一大批“只卖给 Agent”的数据/工具/API,人类用户根本访问不到也不需要访问。

会出现专门给 Agent 付款的新型账户(播客里那位甚至真的给他的 Agent 办了一张信用卡、一个 Gmail 账号)。

很多现在订阅制的东西会变成按次付费,因为 Agent 不需要“包月省心”,它就要精确付费。

🚀 五、那么,机会在哪儿

讲到这儿,你可能已经能闻到一些味道了。我把它整理成三层,离你越近的越能马上动手。

第一层:把“你的经验”做成 Agent 能调用的东西。

我过去三年攒的最值钱的东西其实不是课,是藏在课背后的那套判断力——什么选题能火、什么话术能转化、什么封面会被划走、一个账号看三条视频就知道能不能跑出来。

这些东西过去只能打包卖成 1980 的课,因为用户没法为“判断一条选题好不好”单独付你 5 块钱。但 Agent 可以。具体可以怎么做:

选题评分 API:别人的内容 Agent 丢一个选题过来,你的 Agent 基于你的方法论打分 + 给优化建议,一次 2 块

封面诊断 API:丢一张封面图,返回“能不能过 3 秒划走测试”的判断 + 修改方向

话术转化率预测:丢一段直播话术片段,返回一个“转化率潜力分”这些东西现在听起来有点早,但关键是——我手里已经有训练这些判断力的原料了:第 1 到第 8 期学员的作品、复盘、数据、你自己的拆解笔记。我做不做得起来不取决于技术,取决于你愿不愿意现在就开始把这些资产结构化。

第二层:做“面向 Agent 的内容基础设施”。

OpenClaw 已经在靠近这件事了,但可以再明确一点。Agent 做内容这件事,最缺的不是模型能力,是垂直领域的上下文

一个通用 Agent 来做短视频选题,它不知道“且曼生态里的 IP 训练是什么”、不知道“视频号和抖音的算法差异”、不知道“2026 年 4 月这个节点什么话题正在爆”。

所以机会在于:做一个“内容创作领域”的专用知识层,让所有做内容的 Agent 都来调用你。

可以是一个持续更新的“短视频爆款选题库”、一个“IP 人设一致性检查器”、一个“平台合规词检查器”

这些东西过去没法做成生意,因为没人愿意为一次检查付 1 块钱。Agent 时代就不一样了。

第三层:做“Agent 培训师”而不是“工具培训师”。

这个是我真心觉得你 2026 年最该想清楚的一件事。

未来三年会有大量的律师、医生、设计师、咨询师、老师发现一件事:“我脑子里的那套东西,怎么让 Agent 学会?”

这些人都不是技术出身,但他们手里都有极高价值、极难传承的专业判断力。他们需要有人教他们:

怎么把自己的工作流程拆解成 Agent 能理解的结构

怎么写 SOUL.md、USER.md 这种定义 Agent 身份的东西

怎么用 prompt 把“只可意会”的审美标准变成“可复用”的判断规则

怎么设计 Agent 的评估体系,让它知道自己做得对不对这就是“Agent 时代的 IP 训练”。 它和你现在做的事不冲突,而是自然的升级——你不是在教学生“怎么做 IP”,而是在教学生“怎么把自己变成一个能被 Agent 放大一千倍的 IP”。而且你有一个别人没有的起手优势:你已经自己走过这条路了。你的 OpenClaw、你的 SOUL.md、你给龙虾写的那套人设定义——这些本来就是你 2026 年初默默在做的事。你只是还没意识到,你其实已经在为“下一代 IP 训练”做产品原型。

🏁 六、最后一段:回到那匹马

文章写到这儿,我们已经从一匹马,聊到了一场可能持续十年的工作流重构,再聊到一个被严重低估的经济模型,最后落到了我们自己业务的三个机会点。

我想用一段大白话收尾。每次有这种级别的新模型出来,行业里就会出现两种人:一种慌着抢工具红利,一种慌着重构方法论。

我做了一年多 AI+IP操盘手,越来越确定后者才是长期正确的事。

HappyHorse 再强,三个月后也会有比它更强的;

但你脑子里那套“怎么判断一个工具值不值得 All in”的框架,是十年都不会过时的

而所有“值得 All in”的判断,最终都会指向同一件事:你是不是站在了下一个抽象层的入口

PC 时代的入口 是“软件可以单独卖钱”。

云计算时代的入口 是“算力可以按次买”。

Agent 时代的入口,我目前最确信的一个答案是:判断力可以脱离人,变成被无数 Agent 调用的资产。如果这个判断是对的,那我们这种过去三年都在沉淀“判断力 + 方法论”的人,反而是这一波最不容易被替代的人。前提是——我们要在它变成所有人的常识之前,先把自己的资产准备好。这匹马跑得快,但跑的是别人的赛道。你要做的,是趁它跑过的时候,看清楚自己的赛道到底在哪儿

——喂鱼,2026 年 4 月