全球视频大模型榜单,国产模型杀进前 2。
就在最近,权威第三方机构 Artificial Analysis 更新了排行榜——
来自昆仑天工的 SkyReels-V4,直接干到了文转视频_(含音频)_全球榜第 2,位列 Veo 3.1、Sora 2 之前。
历史榜_(包括所有模型的那种)_也冲到第 4 位,稳居全球第一梯队:
要知道 Artificial Analysis 可是目前公认的 “AI 领域的 Gartner”,其所有测试均在内部独立进行,不依赖各家实验室自行报告的数据,所以上述成绩背后的含金量可想而知。
而且更关键的是,这不单单是一次 “纯文生视频” 的胜利。
当大多数模型还在卷文生视频时,SkyReels-V4 已经玩起了组合技:
「图像 A 的主体」+「视频 B 的动作」+「音频 C 的背景音」= 一条完整视频。
文本、图像、视频片段、掩码、音频参考全部可混合输入,主打一个全模态参考、一体化生成。
好好好,一个月前才刚开源 SkyReels-V3,这次 V4 直接带着全球 TOP2 的成绩单登场。
只能说这公司节奏够快,成绩够硬。
全球第 2,现场表演一个
不过还是那句老话,光说不练假把式,咱这不得召唤 SkyReels-V4 给大家表演一个(doge)。
锵锵锵锵上场,先给大家来个自我介绍:
_(我是)_全球首个同时支持多模态输入、联合音视频生成、统一生成 / 修复 / 编辑任务的视频基础模型。
没记住不要紧,四个技能 show 这就给观众姥爷献上:
多模态精准控制
先来点有意思的,用图像的主体 + 视频的动作和音乐生成新视频。
把 @video_1 中左侧身穿白上衣配牛仔裤跳舞的女性替换为 @image_1 里的狗, 并将 @video_1 中右侧身穿全套西装跳舞的男性替换为 @image_2 里的猫,确保动作保持一致。
SkyReels-V4 看一眼两张参考图:把狗和猫的毛色、身形全都扒下来,但摒弃了两张图的背景。
再看一眼原视频_(来自昆汀电影《低俗小说》片段)_:噢~俩人在跳舞,女生在左边,男生在右边,他们原来是这么跳的。
然后直接开干,人物主体无缝切换了,狗替女生,猫替男生;但舞台、观众、音乐、动作可都没变。
就连这生成的视频中,狗狗弯腰的动作变化时机都和原版女生动作变化的时机对得上,大概在 10s 左右,这波动作和音乐可是真 · 卡点了~
短剧拍完咱一看,这情绪表现力够专业啊,你就说演技和台词功底夯不夯吧。
除了看演技,咱也往深处扒一扒细节。
首先,能演得这么好,肯定离不开 AI 优秀的指令遵循能力。
除此之外,最让人意外的就是这音频生成质量了,台词不糊嘴,还充分表现出了玩味和审视的人物情绪,敲击桌子的声音真实到能听出是木质的桌面,仔细听还有环境回音。
这是因为模型内置了多语言语音合成、音效生成、背景音乐适配等一系列能力,支持情感语音、歌词同步演唱这些高阶玩法。
整体音频质量在信号清晰度、音色真实度、动态范围这些硬指标上,确实做到了不输专业音频生成工具的水准。
表演看完了,想必你也对 SkyReels-V4 的实力有了近距离感受。
我们看下来,SkyReels-V4 的核心优势几乎可以用两个词来概括:全面、全能。
全面体现在多模态上,包括但不限于图像、音频、文本,它基本都能消化吸收,给出的结果也都符合预期。
全能则体现在这种一体化创作能力上,从灵感激发、脚本设计,到音视频生成、后期剪辑、音效配乐,甚至多语言配音和字幕同步,整个流程几乎都能在同一个平台上完成,全部 All in one。
而基于 “多模态输入 + 全功能集成”,无论是搞创意还是回到实际应用,整个应用想象空间一下子就被打开了。
从以往实践来看,今后用 SkyReels-V4 快速生成产品宣传视频、进军短剧制作、视效大片生成,甚至制作教学课件或多语言科普内容,都变得可行且门槛更低了。
那么问题来了,SkyReels-V4 到底怎么做到的?
答案,全都藏在论文里了。
双流架构,一体生成
老实说,虽然当下 AI 视频生成看起来玩法很多,但要真正做到好用实属不易。
痛点呢绕不开三个:
-
画面没声音:后期配乐对口型耗时费力还容易翻车;
-
输入方式单一且编辑不灵活:大多模型只认文字,想塞参考图、丢参考视频?不支持;想给视频改个背景、给人物换件衣服?只能再重来一遍;
-
画质和速度难兼得:要高清就得等,要流畅就只能忍受马赛克画质。
而 SkyReels-V4 就是冲着这三刀下去的。
它采用双流 MMDiT 架构,把音、视频从底层就焊在了一起。
视频和音频两个分支并行跑,共享同一个多模态大语言模型_(MLLM)_编码器。
画面和声音在模型内部就能完成联合生成,不再依赖后期拼凑的模式。
团队还在每个 Transformer 模块里都加了双向交叉注意力——
视频看音频调整节奏,音频看视频匹配细节。
再配合 RoPE_(旋转位置编码)_频率缩放,哪怕视频与音频的 Token 数量级完全不同,也能在微秒级的时间轴上精准对齐。
嘴唇动几下、脚步声踩在哪一帧,都能严丝合缝,画面一出,声音就同步到位。
一个月前的上一代 V3 还要手动提供音频,现在 V4 的音频分支已经可以直接生成对白、环境音和配乐,并支持音频参考引导。
(这迭代速度真得手动给个大拇指)
输入和编辑也不再是死穴。
它搞了套通道拼接 + 时序拼接的双维玩法,把文字、图片、视频、遮罩、音频参考全都吃进去。
通道维度上,把带噪视频、条件帧、遮罩叠在一起,不管文生视频、图生视频、视频延长还是局部编辑,本质上都变成 “带掩码的修复类” 任务。
想改哪,打个遮罩就改哪,不影响别处。
时序维度上,参考图或视频帧直接拼进生成序列前端,模型像翻参考册一样学里面的风格、动作、人物特征。
加上多模态大语言模型的指令跟随能力,你甚至可以说:
“让参考图 A 里这个女孩,在参考视频 B 的海边,跳参考视频 C 的舞,配参考 D 音频的轻音乐”。
SkyReels-V4 是真能听懂,也真能一次生成出来。
画质和速度极限二选一的问题,它也给出了工程解法。
采用先快速出低清全序列,再单独拎几个高清关键帧,然后用专门的超分和插值模型补细节、优化过渡的策略。
训练上走的是 “逐级爬坡” 的路线,从低分辨率到高分辨率,从单模态到音视频联合,一步步抬高难度。
音频分支单独训练后再和视频分支合练,最后两阶段精修收尾。
每一步踩实了,生成的画面才稳、动作才顺、音视频才真的长在一起。
此外,再配合视频稀疏注意力(VSA)机制,把长序列注意力计算压缩到原来的约 1/3。
计算量降下来,效率提上去,最终画面稳在 1080p、32 帧、15 秒的电影级水准。
从文生视频到音视频同步生成,再到多模态输入、全流程编辑,SkyReels-V4 这一步,算是把 AI 视频生成从单点工具推到了全流程的一体化创作。
当然这事还没完。团队表示后面还有更长视频、更高分辨率、4K 甚至 8K 的难题要啃;
跨语言创作、复杂场景的音视频协同要优化;另外还会继续降推理成本,让这套工具落到更多行业、更多场景里。
单看昆仑天工这 “月更” 速度,估计咱不久后就又能用上了~
昆仑天工真跟多模态死磕到底了
说实话,“多模态” 三个字,现在谁都在喊,但真正从底层架构去做原生统一的玩家并不算多。
而在这个赛道中,昆仑天工还是比较 “执拗” 的一个,从天工系列大模型开始,就坚持自研多模态原生对齐。
统一编码、统一对齐逻辑、统一训练范式…… 这些听着抽象,但一旦走上这条路,基本就是烧时间、烧算力、烧耐心。
当然了,现在看上去好处也非常直接——
当 SkyReels 做到 V4 时,音视频的协同是结构级的,而不是外挂式的。
从产品节奏上看,它的路径并不跳跃,一步一个脚印。
-
早期从文生图、图生图打底,夯实视觉生成与指令对齐能力;
-
随后推出 SkyReels 系列,把能力推向时间维度,做文生视频、图生视频;
-
再到自研音乐模型 Mureka 系列,补齐音频生成链路,让声音正式进入多模态主干框架。
-
上个月的 SkyReels-V3 阶段强化参考驱动,支持图像、视频、音频多模态条件输入,验证跨模态对齐稳定性;
-
到了 V4,就把音视频同步生成、编辑与 inpainting 统一进同一架构,音频从外挂能力变成了原生分支。
这一步步看似功能扩张,实则是从 token 对齐到架构共享、再到训练范式统一的持续收束,逐步逼近原生多模态一体化。
△图片由 AI 生成
另外值得留意的是,昆仑天工不只是闷头做模型,还在用产品矩阵把多模态能力真正落地到创作场景里。
有了自研技术打底之后,他们会快速推出面向垂直场景的产品和平台,再配合昆仑万维在游戏出海这块积累的全球化运营经验,这些 AI 能力在海外的起量速度相当快。
产品本身是各司其职,但到了其旗下 DramaWave 和 FreeReels 这种短剧平台,就变成了多模态能力的综合试验场。
创作者剪片子,视频从 SkyReels 来,配乐从 Mureka 调,字幕和脚本靠文本模型生成,更不用说现在还能音画同步生成…… 一个作品里就能把多模态能力全用上。
用户用完了,数据回来了,模型再迭代,这套正向循环一旦跑起来,比单纯堆参数要扎实得多。
当然,这种打法也不轻松。
重资产自研加上高频迭代,本身就是高风险模式,尤其是当分辨率、时长继续往上卷时,算力成本会再度成为压力点。
昆仑天工未来在更长序列、更高分辨率、跨语言音视频协同上能走多远,还要看后续表现。
但至少从现阶段来说,在多模态视频生成这条线上,他们已经成了存在感很强的竞争者。
你看昆仑天工目前的更新频率和能力跃升就能发现,他们这股 “死磕” 的劲头,还在继续……
SkyReels-V4 技术报告:
arxiv.org/abs/2602.21…
欢迎在评论区留下你的想法!
— 完 —