杀进全球榜TOP2！国产视频模型黑马刚刚出现了全球视频大模型榜单，国产模型杀进前 2。就在最近，权威第三方机构 Art

全球视频大模型榜单，国产模型杀进前 2。

就在最近，权威第三方机构 Artificial Analysis 更新了排行榜——

来自昆仑天工的 SkyReels-V4，直接干到了文转视频_（含音频）_全球榜第 2，位列 Veo 3.1、Sora 2 之前。

历史榜_（包括所有模型的那种）_也冲到第 4 位，稳居全球第一梯队：

要知道 Artificial Analysis 可是目前公认的 “AI 领域的 Gartner”，其所有测试均在内部独立进行，不依赖各家实验室自行报告的数据，所以上述成绩背后的含金量可想而知。

而且更关键的是，这不单单是一次 “纯文生视频” 的胜利。

当大多数模型还在卷文生视频时，SkyReels-V4 已经玩起了组合技：

「图像 A 的主体」+「视频 B 的动作」+「音频 C 的背景音」= 一条完整视频。

文本、图像、视频片段、掩码、音频参考全部可混合输入，主打一个全模态参考、一体化生成。

好好好，一个月前才刚开源 SkyReels-V3，这次 V4 直接带着全球 TOP2 的成绩单登场。

只能说这公司节奏够快，成绩够硬。

全球第 2，现场表演一个

不过还是那句老话，光说不练假把式，咱这不得召唤 SkyReels-V4 给大家表演一个（doge）。

锵锵锵锵上场，先给大家来个自我介绍：

_（我是）_全球首个同时支持多模态输入、联合音视频生成、统一生成 / 修复 / 编辑任务的视频基础模型。

没记住不要紧，四个技能 show 这就给观众姥爷献上：

多模态精准控制

先来点有意思的，用图像的主体 + 视频的动作和音乐生成新视频。

把 @video_1 中左侧身穿白上衣配牛仔裤跳舞的女性替换为 @image_1 里的狗，并将 @video_1 中右侧身穿全套西装跳舞的男性替换为 @image_2 里的猫，确保动作保持一致。

SkyReels-V4 看一眼两张参考图：把狗和猫的毛色、身形全都扒下来，但摒弃了两张图的背景。

再看一眼原视频_（来自昆汀电影《低俗小说》片段）_：噢～俩人在跳舞，女生在左边，男生在右边，他们原来是这么跳的。

然后直接开干，人物主体无缝切换了，狗替女生，猫替男生；但舞台、观众、音乐、动作可都没变。

就连这生成的视频中，狗狗弯腰的动作变化时机都和原版女生动作变化的时机对得上，大概在 10s 左右，这波动作和音乐可是真 · 卡点了～

视频详情

短剧拍完咱一看，这情绪表现力够专业啊，你就说演技和台词功底夯不夯吧。

除了看演技，咱也往深处扒一扒细节。

首先，能演得这么好，肯定离不开 AI 优秀的指令遵循能力。

除此之外，最让人意外的就是这音频生成质量了，台词不糊嘴，还充分表现出了玩味和审视的人物情绪，敲击桌子的声音真实到能听出是木质的桌面，仔细听还有环境回音。

这是因为模型内置了多语言语音合成、音效生成、背景音乐适配等一系列能力，支持情感语音、歌词同步演唱这些高阶玩法。

整体音频质量在信号清晰度、音色真实度、动态范围这些硬指标上，确实做到了不输专业音频生成工具的水准。

表演看完了，想必你也对 SkyReels-V4 的实力有了近距离感受。

我们看下来，SkyReels-V4 的核心优势几乎可以用两个词来概括：全面、全能。

全面体现在多模态上，包括但不限于图像、音频、文本，它基本都能消化吸收，给出的结果也都符合预期。

全能则体现在这种一体化创作能力上，从灵感激发、脚本设计，到音视频生成、后期剪辑、音效配乐，甚至多语言配音和字幕同步，整个流程几乎都能在同一个平台上完成，全部 All in one。

而基于 “多模态输入 + 全功能集成”，无论是搞创意还是回到实际应用，整个应用想象空间一下子就被打开了。

从以往实践来看，今后用 SkyReels-V4 快速生成产品宣传视频、进军短剧制作、视效大片生成，甚至制作教学课件或多语言科普内容，都变得可行且门槛更低了。

那么问题来了，SkyReels-V4 到底怎么做到的？

答案，全都藏在论文里了。

双流架构，一体生成

老实说，虽然当下 AI 视频生成看起来玩法很多，但要真正做到好用实属不易。

痛点呢绕不开三个：

画面没声音：后期配乐对口型耗时费力还容易翻车；
输入方式单一且编辑不灵活：大多模型只认文字，想塞参考图、丢参考视频？不支持；想给视频改个背景、给人物换件衣服？只能再重来一遍；
画质和速度难兼得：要高清就得等，要流畅就只能忍受马赛克画质。

而 SkyReels-V4 就是冲着这三刀下去的。

它采用双流 MMDiT 架构，把音、视频从底层就焊在了一起。

视频和音频两个分支并行跑，共享同一个多模态大语言模型_（MLLM）_编码器。

画面和声音在模型内部就能完成联合生成，不再依赖后期拼凑的模式。

团队还在每个 Transformer 模块里都加了双向交叉注意力——

视频看音频调整节奏，音频看视频匹配细节。

再配合 RoPE_（旋转位置编码）_频率缩放，哪怕视频与音频的 Token 数量级完全不同，也能在微秒级的时间轴上精准对齐。

嘴唇动几下、脚步声踩在哪一帧，都能严丝合缝，画面一出，声音就同步到位。

一个月前的上一代 V3 还要手动提供音频，现在 V4 的音频分支已经可以直接生成对白、环境音和配乐，并支持音频参考引导。

（这迭代速度真得手动给个大拇指）

输入和编辑也不再是死穴。

它搞了套通道拼接 + 时序拼接的双维玩法，把文字、图片、视频、遮罩、音频参考全都吃进去。

通道维度上，把带噪视频、条件帧、遮罩叠在一起，不管文生视频、图生视频、视频延长还是局部编辑，本质上都变成 “带掩码的修复类” 任务。

想改哪，打个遮罩就改哪，不影响别处。

时序维度上，参考图或视频帧直接拼进生成序列前端，模型像翻参考册一样学里面的风格、动作、人物特征。

加上多模态大语言模型的指令跟随能力，你甚至可以说：

“让参考图 A 里这个女孩，在参考视频 B 的海边，跳参考视频 C 的舞，配参考 D 音频的轻音乐”。

SkyReels-V4 是真能听懂，也真能一次生成出来。

画质和速度极限二选一的问题，它也给出了工程解法。

采用先快速出低清全序列，再单独拎几个高清关键帧，然后用专门的超分和插值模型补细节、优化过渡的策略。

训练上走的是 “逐级爬坡” 的路线，从低分辨率到高分辨率，从单模态到音视频联合，一步步抬高难度。

音频分支单独训练后再和视频分支合练，最后两阶段精修收尾。

每一步踩实了，生成的画面才稳、动作才顺、音视频才真的长在一起。

此外，再配合视频稀疏注意力（VSA）机制，把长序列注意力计算压缩到原来的约 1/3。

计算量降下来，效率提上去，最终画面稳在 1080p、32 帧、15 秒的电影级水准。

从文生视频到音视频同步生成，再到多模态输入、全流程编辑，SkyReels-V4 这一步，算是把 AI 视频生成从单点工具推到了全流程的一体化创作。

当然这事还没完。团队表示后面还有更长视频、更高分辨率、4K 甚至 8K 的难题要啃；

跨语言创作、复杂场景的音视频协同要优化；另外还会继续降推理成本，让这套工具落到更多行业、更多场景里。

单看昆仑天工这 “月更” 速度，估计咱不久后就又能用上了～

昆仑天工真跟多模态死磕到底了

说实话，“多模态” 三个字，现在谁都在喊，但真正从底层架构去做原生统一的玩家并不算多。

而在这个赛道中，昆仑天工还是比较 “执拗” 的一个，从天工系列大模型开始，就坚持自研多模态原生对齐。

统一编码、统一对齐逻辑、统一训练范式…… 这些听着抽象，但一旦走上这条路，基本就是烧时间、烧算力、烧耐心。

当然了，现在看上去好处也非常直接——

当 SkyReels 做到 V4 时，音视频的协同是结构级的，而不是外挂式的。

从产品节奏上看，它的路径并不跳跃，一步一个脚印。

早期从文生图、图生图打底，夯实视觉生成与指令对齐能力；
随后推出 SkyReels 系列，把能力推向时间维度，做文生视频、图生视频；
再到自研音乐模型 Mureka 系列，补齐音频生成链路，让声音正式进入多模态主干框架。
上个月的 SkyReels-V3 阶段强化参考驱动，支持图像、视频、音频多模态条件输入，验证跨模态对齐稳定性；
到了 V4，就把音视频同步生成、编辑与 inpainting 统一进同一架构，音频从外挂能力变成了原生分支。

这一步步看似功能扩张，实则是从 token 对齐到架构共享、再到训练范式统一的持续收束，逐步逼近原生多模态一体化。

△图片由 AI 生成

另外值得留意的是，昆仑天工不只是闷头做模型，还在用产品矩阵把多模态能力真正落地到创作场景里。

有了自研技术打底之后，他们会快速推出面向垂直场景的产品和平台，再配合昆仑万维在游戏出海这块积累的全球化运营经验，这些 AI 能力在海外的起量速度相当快。

产品本身是各司其职，但到了其旗下 DramaWave 和 FreeReels 这种短剧平台，就变成了多模态能力的综合试验场。

创作者剪片子，视频从 SkyReels 来，配乐从 Mureka 调，字幕和脚本靠文本模型生成，更不用说现在还能音画同步生成…… 一个作品里就能把多模态能力全用上。

用户用完了，数据回来了，模型再迭代，这套正向循环一旦跑起来，比单纯堆参数要扎实得多。

当然，这种打法也不轻松。

重资产自研加上高频迭代，本身就是高风险模式，尤其是当分辨率、时长继续往上卷时，算力成本会再度成为压力点。

昆仑天工未来在更长序列、更高分辨率、跨语言音视频协同上能走多远，还要看后续表现。

但至少从现阶段来说，在多模态视频生成这条线上，他们已经成了存在感很强的竞争者。

你看昆仑天工目前的更新频率和能力跃升就能发现，他们这股 “死磕” 的劲头，还在继续……

SkyReels-V4 技术报告：
arxiv.org/abs/2602.21…

欢迎在评论区留下你的想法！

— 完 —