2026年4月,AI视频生成赛道迎来一匹匿名黑马——HappyHorse-1.0。它以Elo 1379分登顶Artificial Analysis Video Arena榜单,超越字节跳动的Seedance 2.0。新模型的登场不会“终结”Seedance 2.0,而是加速了AI视频领域的竞争与技术迭代。
一、三股力量:HappyHorse、Seedance 2.0与通用大模型
1.1 HappyHorse-1.0:匿名屠榜的神秘黑马
2026年4月7日,一个代号为HappyHorse-1.0的视频生成模型突然空降Artificial Analysis榜单,以断层式优势登顶榜首。其Elo得分达到1379分,较Seedance 2.0高出106分,刷新了该榜单历史纪录。
HappyHorse-1.0采用40层单流Transformer架构,核心卖点是音视频一体生成——将视频与音频合并在同一个流程中输出,无需后期配音和口型对齐。推理速度上,通过DMD-2蒸馏技术将去噪步数压缩至8步,在单张H100显卡上生成1080p视频仅需约38秒。模型支持七种语言唇形同步,包括普通话、粤语、英语、日语、韩语、德语和法语。
关于其归属,多方消息指向阿里淘天集团未来生活实验室,由前快手“可灵之父”张迪领衔打造。模型目前已宣布开源,基础模型与推理代码均可获取。
1.2 Seedance 2.0:字节跳动的工业级标杆
Seedance 2.0于2026年2月由字节跳动正式发布,是继初代Seedance之后的重大升级。它首创双分支扩散Transformer架构,在单次前向传播中同步输出画面与声音,帧级对齐精度领先。输出分辨率最高可达2K,支持最长60秒的多镜头叙事,可用率高达90%。
1.3 通用大模型:对话与视频的分野
与HappyHorse和Seedance 2.0不同,GPT、Gemini、Claude等通用大模型的核心能力是文本对话、代码生成与复杂推理,视频生成并非其主力功能。这意味着新视频模型的崛起并不会冲击通用对话AI的阵地,两类产品面向的是完全不同的使用场景。
二、横向对比:HappyHorse vs Seedance 2.0
| 对比维度 | HappyHorse-1.0 | Seedance 2.0 |
|---|---|---|
| 归属 | 阿里淘天(张迪团队),已开源 | 字节跳动,闭源 |
| 架构 | 40层单流Transformer,8步去噪 | 双分支扩散Transformer |
| 生成时长 | 最高12秒 | 最长60秒 |
| 输出分辨率 | 1080p | 1080p~2K |
| 推理速度(1080p/5秒) | 约38秒(H100) | 约60秒级 |
| 音频能力 | 原生音视频同步生成 | 原生音画同步 |
| 多模态输入 | 文本/图片 | 文本 + 9图 + 3视频 + 3音频 |
| 唇形同步语言 | 7种 | 8+种 |
| 盲测Elo得分 | 1379分(文生视频无音频) | 1273分 |
| 开源状态 | 已开源 | 闭源 |
注:Elo分数基于Artificial Analysis平台实测数据,不同榜单版本分数可能略有浮动。
三、实测体验:谁更值得尝试?
3.1 画面质量
在Artificial Analysis的盲测机制中,用户需要在不知情的情况下对比两段生成视频。澎湃新闻记者的实测显示,HappyHorse在画面真实感、细节还原度和镜头流畅度上均有明显优势,连续多次盲测中均选择了HappyHorse。不过也有X平台网友指出,HappyHorse在快速运动场景中仍存在AI运动伪影,尤其是带有条纹、线条的物体。
3.2 音频能力
HappyHorse的核心创新在于音视频一体生成。当脚踩冰面时能听到“嘣”的一声,篮球入筐时发出碰撞声,咖啡师倒牛奶时也有对应音效——这些声音与画面中的动作形成了精准对应。此前多数AI视频仅靠后期叠加背景音,HappyHorse将声音真正融为视频的一部分。
3.3 使用门槛
HappyHorse已宣布开源,支持本地部署和在线体验。Seedance 2.0则已上线即梦AI、豆包等平台,无需部署即可使用。对于国内用户,两者均可直接访问,无需特殊网络环境。