视频生成底层逻辑：Spatio-Temporal DiT (时空扩散 Transformer)视频生成不是简单的“多画几

视频生成不是简单的“多画几张图”，而是要在三维空间（高度、宽度、时间）内维持像素的连贯性。

在 DiT 中，我们将一张图切成一个个方块。在视频 DiT 中，我们处理的是一个视频序列（Frames）。

三维切块：模型不再只切 2D 的 Patch，而是切 Tubelets（小管子）。
- 假设一个视频有 16 帧，每帧 $64 \times 64$ 。
- 模型会切出 $2 \times 2 \times 2$ 的时空块（即 2 帧时间长度，2x2 的空间大小）。
物理意义：每一个 Token 现在不仅包含了“哪里有颜色”，还包含了“这个颜色在两帧之间是怎么动的”。这让 Transformer 能够跨越时间去理解物体的运动轨迹。

为了处理视频，DiT 的内部组件经历了“升维”改造：

CLIP 的绝对位置编码在视频中几乎无法使用，因为视频长度是变动的。

视频模型通常采用两种注意力组合方案：

Full Spatio-Temporal Attention：所有帧的所有 Patch 互相看。效果最好，但计算量随视频长度成平方级爆炸。
Factorized Attention (分解注意力)：先做空间自注意力（修饰每一帧的画质），再做时间自注意力（对齐每一帧的动作）。这是目前平衡画质与长度的主流方案。

在文生图中，VAE 是一张张压缩的。在视频中，为了节省空间并保持连贯，引入了 Causal VAE。

短视频 (One-shot)：直接一次性降噪生成 2-5 秒的视频。
长视频 (Autoregressive)：生成前 2 秒，然后将其作为条件，接力生成后 2 秒。这是 Sora 能够生成 60 秒长视频的秘密——时空潜空间的接力采样。

视频生成底层逻辑：Spatio-Temporal DiT (时空扩散 Transformer)