超越谷歌Veo、登顶全球第一!国产AI视频,终于在这个赛道扬眉吐气

2 阅读10分钟

上周五晚上,我在朋友圈刷到一条消息:国产AI视频模型登顶全球第一了

第一反应是:又来?这年头“全球第一”都快成国产大模型的标配头衔了。

第二反应是:等等,压过的是谁?谷歌Veo 3.1?那个被业内吹成“Sora最强对手”的Veo?

我点进去看了一眼。第三方机构Artificial Analysis的榜单,SkyReels V4拿下了「文本生成视频(含音频)」赛道全球第一,超过Veo 3.1,也超过Kling 3.0和Sora 2 。

更关键的是,这个榜单不看厂商自夸,看的是大量真实用户的盲评结果

我不是那种“国产牛逼”就无脑转的人。但这一次,我觉得有必要认真聊聊——不是因为第一,而是因为这个第一意味着什么


01 这个第一,含金量在哪?

先说清楚一件事:AI视频生成最难的不是画面,是音画同步

你去看市面上大部分AI视频,画面再炸裂,声音都是后期硬贴的。画面里的人在说话,声音对不上嘴型;爆炸场面出来了,音效慢了半拍——这种割裂感,一秒出戏。

SkyReels V4这次登顶的赛道,恰恰是**“含音频”的文生视频** 。

什么意思?它生成的视频,声音是“长”在画面里的,不是后期贴上去的

背后用的是对称双流MMDiT架构——视频一个分支,音频一个分支,共享同一个文本编码器,从生成的那一刻起就“焊死”在一起 。

我实测了一段:提示词写“雨夜城市,远处有警笛声”,生成的视频里,警笛的音量会随着镜头远近变化,雨声打在车窗上的节奏和雨滴落下的频率基本对得上。这不是后期能修出来的效果,这是模型从一开始就理解了“声音应该有空间感” 。

另一个让业内闭嘴的数据:从Preview版到正式版,只用了不到一个月

2月27日,SkyReels V4 Preview首次亮相,全球第二。3月18日,正式版发布,冲到第一 。

这种迭代速度,放在游戏里叫“开挂”,放在AI圈叫“没给对手留活路”。


02 实测:这玩意儿到底能干嘛?

聊数据没意思,直接看它能做什么。我用内测资格跑了几天,挑几个最颠覆的功能说。

第一,两张图+一段台词,直出15秒短剧

这是SkyReels V4最让我震惊的能力。

你给它两张角色图——比如一张关公、一张秦琼——再写一段台词。它直接给你吐出一段1080p、32FPS、15秒的视频 。

画面质感、角色表情、嘴型同步,几乎没什么AI味儿。

我以前做AI短剧最怕什么?角色“变脸”。前一秒还是这张脸,后一秒就换人了;刚刚还在这个场景,转头就跳到另一个世界。

SkyReels V4这次最实用的升级,就是把这个坑填上了——多帧参考,最多给9张关键帧,它会按图把中间的动作、镜头和过渡全补出来

比如官方demo里有一段提示词:

“@图片-1的光背青年不断向前奔跑,期间会出现好几个拐角,镜头追踪;随后镜头切换至@图片-2,青年赤裸了上半身,继续向前奔跑然后急转弯;随后镜头切换至@图片-3,他露出了诧异的表情;最后镜头切换至@图片-4,他向右拧动了转盘,一大股浓烟占据了画面。”

这种复杂的分镜控制,它全吃进去了,生成的视频风格统一、逻辑连贯 。

这对AI短剧产业意味着什么?

以前拍AI短剧,男主第一集尖下巴,第二集国字脸,观众直接出戏。现在有了九宫格参考,角色全程一致,场景全程连贯,AI短剧终于从“看个热闹”升级到了“可以认真追”的水平

第二,用嘴剪视频,动口不动手

这个功能我反复试了好几遍,才确认不是幻觉。

SkyReels V4不只会生视频,还会直接改视频——而且是用自然语言改

它支持三类操作:

第一类,往画面里加东西。

“Add the blue ribbed knit beanie from @image_1 onto the head of the central dancer in @video_1.”

一句话,把一顶帽子加到跳舞的小姐姐头上。各个角度都完美贴合,不是那种“硬贴上去”的效果 。

第二类,改角色动作。

让新加进来的人物跟着原角色一起跳舞,或者把动作重新绑定过去。

官方demo里有一段:把一只毛茸茸的角色加入街舞场景,让它配合原来的人跳舞。生成的视频里,新角色的动作节奏和原角色完全同步

这种理解能力,已经超越了单纯的“图像识别”,进入了“场景理解”的层面。

第三类,直接做清理。

去字幕、去水印、去台标、删路人、删动物——以前需要Premiere+AE+各种AI工具来回倒腾的活儿,现在一个模型全搞定

我用一段带水印的视频测试,提示词“remove the watermark”,生成的结果里水印消失,背景填充自然,几乎看不出痕迹 。

视频生成、元素植入、角色编辑、画面清理——正在被收敛到同一套通用编辑框架里

这是比“生成视频”更狠的突破:它不只是创作工具,还是后期神器


03 技术硬突破:凭什么硬刚Veo 3.1?

看完效果,来看看背后技术。SkyReels V4这次往前冲,靠的不是小修小补,而是治好了两个视频AI的老毛病

老毛病一:画面好看,但逻辑不通

水往天上流、杯子悬在空中、人一转身动作就穿帮——这是AI视频的老毛病。

SkyReels V4怎么治?给模型加一套更严格的评分系统

这套系统叫全模态强化学习。简单说,训练时不再只盯着“像不像”,还要判断“对不对”:

  • 画面要好看
  • 动作要合理
  • 声音要对上嘴型和节奏
  • 哪里不对,反复打回去重练

同时引入阶梯式课程强化学习机制,让模型从简单任务逐步进阶到复杂任务 。

可以理解成:以前老师只看卷面漂不漂亮;现在老师开始同时盯逻辑、动作和表达了。

实测一段《龙虾军团占领电脑》的复杂分镜,从“鼓胀的黑色眼睛瞬间睁开”到“赛博龙虾用巨螯撬开机箱”,再到“成千上万龙虾士兵涌入硬盘”,整个画面衔接和音画搭配通体舒畅

老毛病二:角色记不住

这个前面说过了——多帧参考和网格参考能力,把视频生成的一致性和可控性拉到了行业天花板 。

核心突破在于:关键帧参考能力可基于用户给定的多节点关键帧,精准推演逻辑严密、动作连贯的中间画面;网格图参考能力专为短剧生成打造,支持上传至多9张剧情关键帧,模型可稳定提取并保留角色特征与场景风格 。

这两项能力,让SkyReels V4从一个“视频生成工具”,正式进化为 “短剧工业化生产引擎”


04 不只是技术第一,还真把💰挣了

比登顶榜单更值得关注的,是另一组数据:

截至2026年1月,昆仑万维旗下短剧平台DramaWave,MAU突破8000万,年化流水ARR破4.8亿美元,月流水高达4000万美元

4000万美元,是真实的用户在真实地付费观看AI参与制作的内容

这不是PPT上的数字,是跑通的技术→产品→商业化闭环

以自制AI短剧《掠夺词条!我转职为亡灵天灾》为例,依托AI短剧Agent工具SkyAnime制作,成本不足2万美金,上线后单日投放超10万美金,累计播放量数百万次 。

DramaWave上的AI剧模块已上线近千部作品,AI自制剧月产能超30部

这不是“实验室作品”,这是工业化量产

另一个值得注意的点:昆仑万维旗下还有AI音乐创作平台Mureka——其O1模型是全球首个引入思维链的音乐推理大模型 。

SkyReels V4的视频能力 + Mureka的音乐能力 = 从画面到声音的全链路创作闭环

一家公司同时拥有全球顶尖的视频大模型和音乐大模型,全球屈指可数 。

这意味着什么?

  • 一个品牌方可以用一句话生成完整的视频广告
  • 一个独立音乐人可以把歌曲直接变成高质量MV
  • 一个教育机构可以把课程自动转化为配有讲解、配乐和动态画面的教学视频

这些不是畅想,是正在发生的事


05 选型建议:你该不该用?

如果你是以下几类人,SkyReels V4值得认真考虑:

短视频创作者、短剧从业者:9帧参考+音画同步,可以让你的产能翻倍,质量稳定 。

品牌方、营销人员:一句话生成完整视频广告的能力,值得专门开个API账号 。

独立开发者、创业团队:不用从零搭建大模型,不用投入巨额的研发成本,直接调用API,就能给自己的产品加上全球顶尖的音视频生成能力 。

但也要注意几个坑:

时长限制:目前单段视频15秒封顶,长内容需要拼接 。想拍大片的朋友得等等下一版。

细节控制:虽然已经很强,但复杂场景下偶尔会有微抖动,尤其是第一帧 。建议分段生成后剪辑。

闭源问题:目前API开放,但模型本身未开源 。如果对代码透明性有执念,需要权衡。

个人使用建议:从API开始试,跑几个自己场景的案例,感受一下效果和成本。别上来就all in,先用起来再说。


写在最后

站在2026年春天回望,AI视频生成领域的变化翻天覆地。

从Sora掀起的第一波浪潮,到Veo、Kling、Seedance的百家争鸣,再到SkyReels V4以 “全模态参考+音视频联合生成+统一任务框架+全模态强化学习”的四位一体能力登顶全球 ——我们正在见证一个新时代的开启。

在这个时代里,视频创作不再是专业团队的专属特权,而是每一个有创意的人都能触及的表达方式。

而SkyReels V4所代表的技术方向——用一个模型、一次操作,完成从文字构思到音视频成品的全流程创作——正是通往那个未来的最清晰路径。

AI视频的竞赛远未结束。但SkyReels V4已经用全球第一的成绩证明了一件事:

在这条赛道上,中国的声音不仅值得全世界倾听——它已经站在了世界之巅。