千问 Qwen + 万相 Wan,阿里已实现全模态开源。
当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部推理代码和权重,最宽松的开源协议)。
经常玩视频生成模型的同学应该知道,当前的很多模型仍然面临多方面挑战,比如难以还原复杂的人物动作,处理不好物体交互时的物理变化,遇到长文本指令就「选择性遵循」等。如果三个方面都做得比较好,那模型厂商多半是不舍得开源的。
业界翻车 case,体操等复杂运动对于视频生成模型来说充满挑战。
阿里的做法与之不同。新开源的万相视频生成大模型不仅能展现旋转、跳跃、转身、翻滚等复杂动作,精准还原碰撞、反弹、切割等真实物理场景,还能准确理解中英文长文本指令,还原各种场景切换、角色互动。
我们先来看看官方的 demo:
Prompt:一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。
__Prompt:体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质,动作完整。
万相大模型核心技术创新
那么,问题来了,万相大模型是如何实现生成能力突破的呢?主要是两大核心创新。一个是高效的因果 3D VAE,另一个则是视频 Diffusion Transformer 。
高效的因果 3D VAE
万相团队自研了一种专为视频生成设计的新型因果 3D VAE 架构,并结合多种策略来改进时空压缩、降低内存使用以及确保时间因果性。
万相大模型视频 VAE。
实验结果表明,万相的视频 VAE 在各项指标上均表现出极具竞争力的性能。在相同的硬件环境(单个 A800 GPU)下,万相的 VAE 重建速度比现有的最先进方法(如 HunYuanVideo)快 2.5 倍。
视频 Diffusion Transformer
万相模型架构基于主流的视频 DiT 结构,通过 Full Attention 机制确保长时程时空依赖的有效建模,实现时空一致的视频生成。模型的整体训练则采用了线性噪声轨迹的流匹配(Flow Matching)方法。
如以下模型架构图所示,模型首先使用多语言 umT5 编码器对输入文本进行语义编码,并通过逐层的交叉注意力层,将文本特征向量注入到每个 Transformer Block 的特征空间,实现细粒度的语义对齐。此外,研究者通过一组在所有 Transformer Block 中共享参数的 MLP,将输入的时间步特征 T 映射为模型中 AdaLN 层的可学习缩放与偏置参数。实验发现,在相同参数规模下,这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。
此外,万相大模型还通过可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,共同提升了模型的最终性能表现。
Qwen + 万相,阿里已实现全模态开源
时间回到 2023 年。当时,如果有人说开源模型有望追上闭源模型,很多人可能都不相信。然而正是在这样的背景下,一些顶级的 AI 公司走上了开源的路线,Meta、阿里都是其中的典型代表。
两年后的今天,阿里 Qwen 衍生模型已突破 10 万个,超越 Meta 的 Llama 系列,跻身全球最大 AI 模型家族之列。更引人注目的是,在 Huggingface 最新发布的开源大模型榜单(OpenLLMLeaderboard)中,前十名全部被基于 Qwen 开发的衍生模型包揽,充分展现了中国开源模型的蓬勃生命力。
Huggingface2 月 10 日官网榜单截图。
而且,阿里的开源大模型不止在语言方面表现出色,在多模态方面也处于领先地位:今年 1 月开源的视觉理解模型 Qwen2.5-VL 斩获了 OCRBenchV2、MMStar、MathVista 等 13 项评测冠军,全面超越了 GPT-4o 与 Claude3.5,在多模态这个赛道打破了「开源不如闭源」的固有认知。
如今,在万相开源之后,阿里的两大基础模型已经全部开源,实现了真正意义上的全模态开源。这在当前 AI 巨头中独树一帜。
目前,万相已登陆 GitHub、HuggingFace 和魔搭社区平台,全面对接主流框架。从 Gradio 快速体验到 xDiT 并行加速推理,再到即将接入的 Diffusers 和 ComfyUI,该模型为开发者提供了全方位的支持。这不仅降低了技术门槛,也为不同场景需求提供了灵活的解决方案。
我们也期待阿里的开源大模型家族进一步壮大。
开源地址:
Github: github.com/Wan-Video
HuggingFace:huggingface.co/Wan-AI