挑战Sora!以色列独角兽Lightricks发布LTX-2

0 阅读6分钟

在多模态生成领域, 打破视觉与听觉模态的物理壁垒、实现跨感官信息的有机融合与“感官统一” ,是当前学界与工业界亟待解决的核心挑战。

image

长期以来,有声视频生成(Sounding Video Generation)受困于“级联式(Cascaded)”范式的桎梏。 传统工作流往往将任务解耦为“先生成视觉默片,再后处理合成音频”,这种物理上的模态割裂导致了严峻的时空非一致性问题 ——脚步声的相位滞后、口型与语音的错位,成为了该领域难以逾越的“恐怖谷”。

image

近期,Lightricks团队发布了论文《LTX-2: Efficient Joint Audio-Visual Foundation Model》, 提出了一种基于非对称双流架构的全新技术范式。该模型作为首个采用此架构的通用视听生成模型,通过重构跨模态信息交互与生成链路, 破解了传统“级联式”生成范式的模态割裂与效率瓶颈,更以1.22秒的极致推理延迟,为实时有声视频生成任务的性能标准确立了新的标杆。

image

困境与迷途:级联生成的“时空错位”黑洞

在多模态生成领域的前沿探索中, 传统级联式(Cascaded)生成范式正面临着源于物理本质的根本性挑战。 现有模型通常将视觉生成与听觉合成视为相互独立的概率建模过程,这一设计忽略了视听模态间显著的信息熵(Information Entropy)差异。

由于视觉信号的高维时空信息密度远高于听觉信号,线性级联的处理方式会引发不可逆的信息损失: 一方面,音频信号无法精准还原视觉画面中的细粒度物理动态;另一方面,视觉帧也难以与音频的瞬态时序特征实现精准对齐。 这种熵减过程最终导致生成内容陷入时空错位的困境,难以突破从拟真到真实的瓶颈。

image

为解决上述级联范式导致的时空错位与信息损耗问题,LTX-2并未依赖单纯的算力扩容, 而是提出了一种基于信息熵差异的非对称双流架构,实现了从离散模态拼接向流式协同生成的范式跃迁。

image

研究团队 基于视听模态间的信息熵数量级差异,提出了非对称参数分配策略:由于视觉模态包含高维时空信息,其信息熵显著高于听觉模态,因此模型参数无需在两分支间均匀分配。

架构解析:非对称双流与隐式纠缠的完美耦合

LTX-2构建了14B参数的视觉分支与5B参数的音频分支: 视觉分支负责建模高维时空特征,捕捉复杂的视觉动态与光影变化;音频分支则专注于精细的声波生成与时序对齐,通过跨模态注意力机制与视觉分支实时联动, 从根源上避免了信息损耗与模态错位。

image

统一的潜空间流形构建

为了在非对称的参数规模下实现视听信息的有效流转, LTX-2并没有采用传统的自回归范式,而是构建了一套基于 Flow Matching(流匹配) 的端到端训练与推理管线。

LTX-2的核心设计在于将视频与音频压缩至各自的潜空间(Latent Space),并在该空间内进行联合去噪。

image

基于物理因果的视听注意力耦合效应可视化验证

为验证非对称双流架构中跨模态交互的有效性, 研究团队对模型的交叉注意力(Cross-Attention)权重进行了可视化分析。

结果显示,视听双分支间呈现出类量子纠缠式的强耦合关联,其注意力分配与物理世界的因果逻辑高度一致:当生成车辆行驶的音频信号时,音频分支的注意力权重显著聚焦于视频分支中对应 “运动车辆” 的时空区域;当生成语音信号时,注意力则精准锁定视频中 “唇部运动” 的特征区域。这一现象表明,模型已习得视听模态间的物理关联规则,而非简单的统计映射。

image

引入推理机制:思维令牌设计

在文本语义理解模块,LTX-2未局限于传统T5编码器的基础语义编码能力,而是创新性引入基于Gemma 3模型的思维链推理机制。

在音视频生成任务启动前,模型会针对输入文本提示预先生成一组思维令牌。 该令牌序列承担隐式脚本的功能定位,可对复杂Prompt进行层级化解析,同时前瞻性规划视觉模态的光影演化逻辑与听觉模态的声效情绪特征, 最终有效提升模型对长序列指令的语义依从性与执行精度。

image

实验验证:精度与速度的降维打击

在生成质量与可控性方面,LTX-2通过引入多模态无分类器引导,确立了新的技术标准。

精细化的多模态控制场

为缓解文本语义一致性与视听模态对齐性的权衡困境,LTX-2 构建了独立的双向引导机制。该机制赋予模型对语义内容契合度与视听同步精度的解耦调控能力,有效提升复杂场景下的生成鲁棒性。

LTX-2不仅在多模态生成机理层面形成逻辑闭环,更在工程化落地维度验证了非对称双流架构的高效性,为实时多模态交互任务提供了可行的计算范式。

image

综合性能:开源界的 SOTA 新霸主

在与当前顶尖的视频生成模型(如 Sora、Gen-3、Mochi、CogVideoX)的横向评测中, LTX-2展现出了令人惊讶的“全能性”。

image

实验结果表明,得益于非对称双流架构对视觉与听觉信息熵的精准建模, LTX-2 成功克服了传统模型的通病:它既没有因为追求视频画质而牺牲音频的保真度,也没有为了对齐音频而导致画面的崩坏。

总结与展望:确立有声视频生成的 SOTA 基准

在与Sora、Gen-3等闭源巨头,以及Mochi等开源模型的同台竞技中 ,LTX-2展现了统治级的性能。特别是在涉及物理撞击与人声对白的复杂场景下,其表现远超传统的级联模型。

image

Lightricks选择将这一强大的基础模型全栈开源,不仅是对技术社区的巨大回馈,更是在多模态领域立下了一座新的丰碑。 它向世界证明:高效、同步、高质量的视听联合生成,不再是遥不可及的未来,而是触手可及的现在。