别被 Transformer 骗了:为什么 AI 绘画和视频模型不按“套路”出牌?

0 阅读4分钟

导语:文字是序列的艺术,影像是时空的魔法

最近在深度钻研 Transformer 架构时,我突然产生了一个巨大的困惑:为什么在 LLM 领域一家独大的 Transformer,在 AI 绘画(AIGC)和视频生成(VGM)领域却显得“声量不足”?

难道图片和视频模型不需要“注意力”吗?为什么我们很少看到关于视觉模型底层架构的大规模讨论?

在复盘了文字、图像、视频三者的生成逻辑后,我发现这不仅是技术的差异,更是一场关于“如何模仿人类思维”的路线之争。


一、 架构三剑客:谁才是多模态的真正主角?

虽然 Transformer 统治了文字,但在视觉领域,它面临着空间维度带来的“计算通胀”。

🧬 核心架构深度对比

模态核心主角关键机制核心逻辑
文字 (LLM)Transformer自注意力 (Self-Attention)理解序列:捕捉长距离上下文的逻辑关联。
图像 (AIGC)U-Net下采样 + 上采样 + 跳跃连接重构空间:处理二维像素,完美保留细节与边缘。
视频 (VGM)3D U-Net / DiT时空注意力 / 3D 卷积模拟时空:在理解画面的同时,维持时间的连贯性。

1. Transformer:文字世界的“独角戏”

文字是一维序列。Transformer 通过自注意力机制,让每个字都能“看到”全句。它强在逻辑,弱在空间。

2. U-Net:图像生成的“雕刻师”

图像生成的核心通常是 U-Net。它像一个沙漏,先压缩提取语义,再还原补充细节。配合扩散模型(Diffusion),它不是在画画,而是在从一团混沌的噪点中,“去噪”出清晰的世界。

3. Sora 与 DiT:视频生成的“时空魔术”

视频是四维的(3D空间+1D时间)。目前有两条路:

  • 3D U-Net:给卷积核加个维度,像看“一叠照片”一样理解运动。
  • DiT (Diffusion Transformer):如 Sora,将视频切成“时空块”(Patches)。它不再仅仅是预测像素,而是在模拟微型物理世界

二、 深度思考:AI 一定要像人一样思考吗?

在研究中我发现一个有趣的现象:AI 生成内容的本质,与人类的创作直觉完全相反。

  • 人类绘画:先有构思,再打草稿,最后填色。
  • AI 绘画:从满屏噪点中,一点点抠出轮廓。

于是疑问来了:按人类思维去造模型,到底是“捷径”还是“陷阱”?

1. 极度合理:借鉴人类的“认知优势”

这是 AGI(通用人工智能)的必经之路。

  • 解决“幻觉”与“畸变”:AI 经常画出 6 根手指,是因为它只懂“概率”不懂“解剖学”。赋予 AI 物理常识和因果推理(模仿人类的世界模型),是解决这类底层 Bug 的唯一解。
  • 提高可解释性:如果 AI 能像人一样解释“因为我认为这里有重力,所以球掉下去了”,它在医疗、法律等高风险领域才真正可信。

2. 极度危险:复刻人类的“表层行为”

  • 不要模仿“扇翅膀”:早期的飞机想模仿鸟扇翅膀,结果全摔了。AI 不需要像人一样“一笔一划”写字。它的优势在于硅基芯片的高并行、海量吞吐
  • 摒弃人类的“进化缺陷”:人类会遗忘、有偏见、易疲劳。如果为了“像人”而把这些 Bug 带进模型,那是本末倒置。
  • 智能不只有一种形态:鸟会飞,飞机也会飞,原理天差地别。机器智能可以拥有不同于碳基生物的“暴力美学”。

结语:取其精华,去其枷锁

真正的进化,不是 1:1 复刻人类的大脑,而是取人类认知的精华(逻辑、因果、常识),去人类生理的枷锁(功耗限制、计算速度、思维缺陷)。

现在的模型或许不符合人类“先理解再动笔”的直觉,但它是当前算力环境下的工程最优解。而未来的模型,一定会带着人类的“世界观”,在硅基世界里推演出更真实的宇宙。