超越谷歌Veo、登顶全球第一！国产AI视频，终于在这个赛道扬眉吐气上周五晚上，我在朋友圈刷到一条消息：国产AI视频模型登

上周五晚上，我在朋友圈刷到一条消息：国产AI视频模型登顶全球第一了。

第一反应是：又来？这年头“全球第一”都快成国产大模型的标配头衔了。

第二反应是：等等，压过的是谁？谷歌Veo 3.1？那个被业内吹成“Sora最强对手”的Veo？

我点进去看了一眼。第三方机构Artificial Analysis的榜单，SkyReels V4拿下了「文本生成视频（含音频）」赛道全球第一，超过Veo 3.1，也超过Kling 3.0和Sora 2 。

更关键的是，这个榜单不看厂商自夸，看的是大量真实用户的盲评结果 。

我不是那种“国产牛逼”就无脑转的人。但这一次，我觉得有必要认真聊聊——不是因为第一，而是因为这个第一意味着什么。

01 这个第一，含金量在哪？

先说清楚一件事：AI视频生成最难的不是画面，是音画同步。

你去看市面上大部分AI视频，画面再炸裂，声音都是后期硬贴的。画面里的人在说话，声音对不上嘴型；爆炸场面出来了，音效慢了半拍——这种割裂感，一秒出戏。

SkyReels V4这次登顶的赛道，恰恰是**“含音频”的文生视频** 。

什么意思？它生成的视频，声音是“长”在画面里的，不是后期贴上去的 。

背后用的是对称双流MMDiT架构——视频一个分支，音频一个分支，共享同一个文本编码器，从生成的那一刻起就“焊死”在一起。

我实测了一段：提示词写“雨夜城市，远处有警笛声”，生成的视频里，警笛的音量会随着镜头远近变化，雨声打在车窗上的节奏和雨滴落下的频率基本对得上。这不是后期能修出来的效果，这是模型从一开始就理解了“声音应该有空间感” 。

另一个让业内闭嘴的数据：从Preview版到正式版，只用了不到一个月 。

2月27日，SkyReels V4 Preview首次亮相，全球第二。3月18日，正式版发布，冲到第一。

这种迭代速度，放在游戏里叫“开挂”，放在AI圈叫“没给对手留活路”。

02 实测：这玩意儿到底能干嘛？

聊数据没意思，直接看它能做什么。我用内测资格跑了几天，挑几个最颠覆的功能说。

第一，两张图+一段台词，直出15秒短剧

这是SkyReels V4最让我震惊的能力。

你给它两张角色图——比如一张关公、一张秦琼——再写一段台词。它直接给你吐出一段1080p、32FPS、15秒的视频。

画面质感、角色表情、嘴型同步，几乎没什么AI味儿。

我以前做AI短剧最怕什么？角色“变脸”。前一秒还是这张脸，后一秒就换人了；刚刚还在这个场景，转头就跳到另一个世界。

SkyReels V4这次最实用的升级，就是把这个坑填上了——多帧参考，最多给9张关键帧，它会按图把中间的动作、镜头和过渡全补出来 。

比如官方demo里有一段提示词：

“@图片-1的光背青年不断向前奔跑，期间会出现好几个拐角，镜头追踪；随后镜头切换至@图片-2，青年赤裸了上半身，继续向前奔跑然后急转弯；随后镜头切换至@图片-3，他露出了诧异的表情；最后镜头切换至@图片-4，他向右拧动了转盘，一大股浓烟占据了画面。”

这种复杂的分镜控制，它全吃进去了，生成的视频风格统一、逻辑连贯。

这对AI短剧产业意味着什么？

以前拍AI短剧，男主第一集尖下巴，第二集国字脸，观众直接出戏。现在有了九宫格参考，角色全程一致，场景全程连贯，AI短剧终于从“看个热闹”升级到了“可以认真追”的水平 。

第二，用嘴剪视频，动口不动手

这个功能我反复试了好几遍，才确认不是幻觉。

SkyReels V4不只会生视频，还会直接改视频——而且是用自然语言改 。

它支持三类操作：

第一类，往画面里加东西。

“Add the blue ribbed knit beanie from @image_1 onto the head of the central dancer in @video_1.”

一句话，把一顶帽子加到跳舞的小姐姐头上。各个角度都完美贴合，不是那种“硬贴上去”的效果。

第二类，改角色动作。

让新加进来的人物跟着原角色一起跳舞，或者把动作重新绑定过去。

官方demo里有一段：把一只毛茸茸的角色加入街舞场景，让它配合原来的人跳舞。生成的视频里，新角色的动作节奏和原角色完全同步 。

这种理解能力，已经超越了单纯的“图像识别”，进入了“场景理解”的层面。

第三类，直接做清理。

去字幕、去水印、去台标、删路人、删动物——以前需要Premiere+AE+各种AI工具来回倒腾的活儿，现在一个模型全搞定 。

我用一段带水印的视频测试，提示词“remove the watermark”，生成的结果里水印消失，背景填充自然，几乎看不出痕迹。

视频生成、元素植入、角色编辑、画面清理——正在被收敛到同一套通用编辑框架里 。

这是比“生成视频”更狠的突破：它不只是创作工具，还是后期神器。

03 技术硬突破：凭什么硬刚Veo 3.1？

看完效果，来看看背后技术。SkyReels V4这次往前冲，靠的不是小修小补，而是治好了两个视频AI的老毛病。

老毛病一：画面好看，但逻辑不通

水往天上流、杯子悬在空中、人一转身动作就穿帮——这是AI视频的老毛病。

SkyReels V4怎么治？给模型加一套更严格的评分系统 。

这套系统叫全模态强化学习。简单说，训练时不再只盯着“像不像”，还要判断“对不对”：

画面要好看
动作要合理
声音要对上嘴型和节奏
哪里不对，反复打回去重练

同时引入阶梯式课程强化学习机制，让模型从简单任务逐步进阶到复杂任务。

可以理解成：以前老师只看卷面漂不漂亮；现在老师开始同时盯逻辑、动作和表达了。

实测一段《龙虾军团占领电脑》的复杂分镜，从“鼓胀的黑色眼睛瞬间睁开”到“赛博龙虾用巨螯撬开机箱”，再到“成千上万龙虾士兵涌入硬盘”，整个画面衔接和音画搭配通体舒畅 。

老毛病二：角色记不住

这个前面说过了——多帧参考和网格参考能力，把视频生成的一致性和可控性拉到了行业天花板。

核心突破在于：关键帧参考能力可基于用户给定的多节点关键帧，精准推演逻辑严密、动作连贯的中间画面；网格图参考能力专为短剧生成打造，支持上传至多9张剧情关键帧，模型可稳定提取并保留角色特征与场景风格。

这两项能力，让SkyReels V4从一个“视频生成工具”，正式进化为 “短剧工业化生产引擎” 。

04 不只是技术第一，还真把💰挣了

比登顶榜单更值得关注的，是另一组数据：

截至2026年1月，昆仑万维旗下短剧平台DramaWave，MAU突破8000万，年化流水ARR破4.8亿美元，月流水高达4000万美元 。

4000万美元，是真实的用户在真实地付费观看AI参与制作的内容。

这不是PPT上的数字，是跑通的技术→产品→商业化闭环。

以自制AI短剧《掠夺词条！我转职为亡灵天灾》为例，依托AI短剧Agent工具SkyAnime制作，成本不足2万美金，上线后单日投放超10万美金，累计播放量数百万次。

DramaWave上的AI剧模块已上线近千部作品，AI自制剧月产能超30部 。

这不是“实验室作品”，这是工业化量产。

另一个值得注意的点：昆仑万维旗下还有AI音乐创作平台Mureka——其O1模型是全球首个引入思维链的音乐推理大模型。

SkyReels V4的视频能力 + Mureka的音乐能力 = 从画面到声音的全链路创作闭环。

一家公司同时拥有全球顶尖的视频大模型和音乐大模型，全球屈指可数。

这意味着什么？

一个品牌方可以用一句话生成完整的视频广告
一个独立音乐人可以把歌曲直接变成高质量MV
一个教育机构可以把课程自动转化为配有讲解、配乐和动态画面的教学视频

这些不是畅想，是正在发生的事 。

05 选型建议：你该不该用？

如果你是以下几类人，SkyReels V4值得认真考虑：

短视频创作者、短剧从业者：9帧参考+音画同步，可以让你的产能翻倍，质量稳定。

品牌方、营销人员：一句话生成完整视频广告的能力，值得专门开个API账号。

独立开发者、创业团队：不用从零搭建大模型，不用投入巨额的研发成本，直接调用API，就能给自己的产品加上全球顶尖的音视频生成能力。

但也要注意几个坑：

时长限制：目前单段视频15秒封顶，长内容需要拼接。想拍大片的朋友得等等下一版。

细节控制：虽然已经很强，但复杂场景下偶尔会有微抖动，尤其是第一帧。建议分段生成后剪辑。

闭源问题：目前API开放，但模型本身未开源。如果对代码透明性有执念，需要权衡。

个人使用建议：从API开始试，跑几个自己场景的案例，感受一下效果和成本。别上来就all in，先用起来再说。

写在最后

站在2026年春天回望，AI视频生成领域的变化翻天覆地。

从Sora掀起的第一波浪潮，到Veo、Kling、Seedance的百家争鸣，再到SkyReels V4以 “全模态参考+音视频联合生成+统一任务框架+全模态强化学习”的四位一体能力登顶全球 ——我们正在见证一个新时代的开启。

在这个时代里，视频创作不再是专业团队的专属特权，而是每一个有创意的人都能触及的表达方式。

而SkyReels V4所代表的技术方向——用一个模型、一次操作，完成从文字构思到音视频成品的全流程创作——正是通往那个未来的最清晰路径。

AI视频的竞赛远未结束。但SkyReels V4已经用全球第一的成绩证明了一件事：

在这条赛道上，中国的声音不仅值得全世界倾听——它已经站在了世界之巅。