这两天,社交媒体上又是一波 AI 恶搞视频。大家热衷于给旧梗配上反转画面。
就在大众沉迷整活时,大模型竞技场里的排名刷新了。
3 月 19 日,昆仑万维 SkyReels-V4 在 Artificial Analysis 文生视频(带音频)榜单中拿到第一,排在 Sora 2、Veo 3.1 和可灵 3.0 前面。
Artificial Analysis 采用公开盲测机制。用户在不知情的前提下观看两个视频并投票,系统利用 Elo 积分进行排座次。能在真实盲测中登顶,这意味着模型在直观观感上经受住了考验。
相比外界对于排名的狂欢,技术圈更关心的是:它到底解决了什么实质性痛点?
综合海外测评博主的深度试用与技术白皮书,SkyReels-V4 此次登顶的底层支柱,可以归结为“原生联合生成”与“高度可控的编辑闭环”。
架构创新:让音画同步不再是“伪命题”
市面上很多视频模型的音视频处理逻辑是割裂的:先渲染出画面,再像贴膏药一样附加上一层声音。这种处理方式导致动作与音效时常出现微妙的错位。
SkyReels-V4 从底层架构上推翻了这一模式。它采用了双流多模态扩散 Transformer (MMDiT) 架构。
在这一框架中,视觉合成与音频生成分属两个并行分支,但它们共享一个强大的多模态大语言模型(MLLM)文本编码器。更为关键的是,模型在每一个 Transformer 块中都嵌入了双向交叉注意力(Cross-Attention)机制:音频特征感知视觉动态,视觉分支也同时监听音频线索。
模型只需进行一次前向传播,就能同时输出 1080p、32 FPS、长达 15 秒的音视频。
测评博主的试用报告证实了这一设计的有效性:当向系统输入一段特定 BPM 的背景音乐,并要求画面中物体的动作随节拍变化时,视觉元素的强调动作与音频鼓点的重合误差通常在 40 毫秒以内。人物讲话时的唇形同步也得到了显著改善。
统一处理流:从“抽盲盒”到“工业化修图”
生成视频只是第一步,如何修改生成好的视频,才是困扰行业的真正难题。以往,用户只能通过不断修改提示词来反复抽卡。
SkyReels-V4 的技术亮点在于其提出了统一的“通道拼接(Channel Concatenation)”公式。开发团队将图像转视频、视频扩充以及局部重绘编辑等一系列繁杂任务,全部建模为特定条件下的“视频补全”问题。通过将噪声潜变量、条件帧与掩码拼接在一起,一套界面就能灵活处理所有多模态编辑工作。
在实际试用中,这种机制赋予了创作者极高的编辑自由度。比如,你可以锁定前 6 秒的完美镜头,仅要求模型重绘最后一秒的动作;或者用画笔遮罩视频中不想要的路人和字幕,模型不仅能将其抹除,还能自然地补全背景光影,没有突兀的拼接缝隙。
为了解决高分辨率长视频带来的计算瓶颈,团队还设计了极其工程化的分级渲染策略。基础模型首先负责生成低分辨率完整序列和高频关键帧,随后由独立的 Refiner 模块利用视频稀疏注意力(VSA)机制进行超分辨率与帧插值处理。这一方案在维持高保真画面的同时,将注意力计算成本大幅降低了 3 倍。
市场验证:克制与落地的平衡
然而,客观来看,SkyReels-V4 也并非完美无缺。
最显著的限制在于其目前 15 秒的单次生成上限。虽然它在 15 秒内做到了极高的音画质量与可控性,但对于期待一次性生成 60 秒长镜头叙事的用户来说,只能通过镜头拼接来实现。拼接过程不可避免地会带来背景漂移或色调微变的“一致性损耗”。
但这一克制的策略,恰好击中了当下最具商业价值的落地场景——微短剧。
短剧生产采用高度流水线化的作业模式,对画面的极致时长要求不高,但对角色外貌不能走形、台词口型必须对上、能够进行局部小修小补的要求却极为严苛。SkyReels-V4 放弃了炫技般的时长比拼,转而死磕音画同频与编辑稳定性。
不到一个月,从全球第二爬到第一。在这个算力与创意拼杀的赛道上,不靠盲目堆砌时长,而是用一套稳固的底层工业基础设施去满足真实的生产刚需,这或许是中国 AI 团队给出的最务实的一步棋。