击败 Sora 2 与 Veo 3.1，中国团队视频模型登顶权威榜单这两天，社交媒体上又是一波 AI 恶搞视频。大家热衷

这两天，社交媒体上又是一波 AI 恶搞视频。大家热衷于给旧梗配上反转画面。

就在大众沉迷整活时，大模型竞技场里的排名刷新了。

3 月 19 日，昆仑万维 SkyReels-V4 在 Artificial Analysis 文生视频（带音频）榜单中拿到第一，排在 Sora 2、Veo 3.1 和可灵 3.0 前面。

Artificial Analysis 采用公开盲测机制。用户在不知情的前提下观看两个视频并投票，系统利用 Elo 积分进行排座次。能在真实盲测中登顶，这意味着模型在直观观感上经受住了考验。

相比外界对于排名的狂欢，技术圈更关心的是：它到底解决了什么实质性痛点？

综合海外测评博主的深度试用与技术白皮书，SkyReels-V4 此次登顶的底层支柱，可以归结为“原生联合生成”与“高度可控的编辑闭环”。

架构创新：让音画同步不再是“伪命题”

市面上很多视频模型的音视频处理逻辑是割裂的：先渲染出画面，再像贴膏药一样附加上一层声音。这种处理方式导致动作与音效时常出现微妙的错位。

SkyReels-V4 从底层架构上推翻了这一模式。它采用了双流多模态扩散 Transformer (MMDiT) 架构。

在这一框架中，视觉合成与音频生成分属两个并行分支，但它们共享一个强大的多模态大语言模型（MLLM）文本编码器。更为关键的是，模型在每一个 Transformer 块中都嵌入了双向交叉注意力（Cross-Attention）机制：音频特征感知视觉动态，视觉分支也同时监听音频线索。

模型只需进行一次前向传播，就能同时输出 1080p、32 FPS、长达 15 秒的音视频。

测评博主的试用报告证实了这一设计的有效性：当向系统输入一段特定 BPM 的背景音乐，并要求画面中物体的动作随节拍变化时，视觉元素的强调动作与音频鼓点的重合误差通常在 40 毫秒以内。人物讲话时的唇形同步也得到了显著改善。

统一处理流：从“抽盲盒”到“工业化修图”

生成视频只是第一步，如何修改生成好的视频，才是困扰行业的真正难题。以往，用户只能通过不断修改提示词来反复抽卡。

SkyReels-V4 的技术亮点在于其提出了统一的“通道拼接（Channel Concatenation）”公式。开发团队将图像转视频、视频扩充以及局部重绘编辑等一系列繁杂任务，全部建模为特定条件下的“视频补全”问题。通过将噪声潜变量、条件帧与掩码拼接在一起，一套界面就能灵活处理所有多模态编辑工作。

在实际试用中，这种机制赋予了创作者极高的编辑自由度。比如，你可以锁定前 6 秒的完美镜头，仅要求模型重绘最后一秒的动作；或者用画笔遮罩视频中不想要的路人和字幕，模型不仅能将其抹除，还能自然地补全背景光影，没有突兀的拼接缝隙。

为了解决高分辨率长视频带来的计算瓶颈，团队还设计了极其工程化的分级渲染策略。基础模型首先负责生成低分辨率完整序列和高频关键帧，随后由独立的 Refiner 模块利用视频稀疏注意力（VSA）机制进行超分辨率与帧插值处理。这一方案在维持高保真画面的同时，将注意力计算成本大幅降低了 3 倍。

市场验证：克制与落地的平衡

然而，客观来看，SkyReels-V4 也并非完美无缺。

最显著的限制在于其目前 15 秒的单次生成上限。虽然它在 15 秒内做到了极高的音画质量与可控性，但对于期待一次性生成 60 秒长镜头叙事的用户来说，只能通过镜头拼接来实现。拼接过程不可避免地会带来背景漂移或色调微变的“一致性损耗”。

但这一克制的策略，恰好击中了当下最具商业价值的落地场景——微短剧。

短剧生产采用高度流水线化的作业模式，对画面的极致时长要求不高，但对角色外貌不能走形、台词口型必须对上、能够进行局部小修小补的要求却极为严苛。SkyReels-V4 放弃了炫技般的时长比拼，转而死磕音画同频与编辑稳定性。

不到一个月，从全球第二爬到第一。在这个算力与创意拼杀的赛道上，不靠盲目堆砌时长，而是用一套稳固的底层工业基础设施去满足真实的生产刚需，这或许是中国 AI 团队给出的最务实的一步棋。